python-3.x 相关问题

我正在尝试从网页中抓取图片。使用JS渲染，源码中的图片链接不完整。这是图片的来源： <question vote="1"> <p>我正在尝试从网页中抓取图片。使用JS渲染，源码中的图片链接不完整。这是图片的来源：</p> <pre><code><script language="javascript" type="text/javascript"> </script> <div id="ImagesSection" class="ImagesSection"> <div id='HybridImageViewPrimaryImageDiv'> <a href='/ItemImages/000450/18190933_1_lg.jpeg' class="MagicZoom" data-options=" zoomMode:off; cssClass: dark-bg; zoomOn: click" title='Multi-Faced Doll By Cark Bergner.' id="xxxyyyzzz" ><img id='fullimage' src='/ItemImages/000450/18190933_1_med.jpeg' alt='Multi-Faced Doll By Cark Bergner.' /></a> </div> <div style="margin-top:15px;width:300px;"> <button class="cfg-btn" onclick="MagicZoom.prev('xxxyyyzzz');return false;">Prev</button> <button class="cfg-btn" onclick="MagicZoom.next('xxxyyyzzz') ;return false;">Next</button> </div><div style="margin-top:15px;" width="350px" > <a data-zoom-id="xxxyyyzzz" href="/ItemImages/000450/18190933_1_lg.jpeg" data-image="/ItemImages/000450/18190933_1_med.jpeg" > <img src="/ItemImages/000450/18190933_1_sm.jpeg" height="60px" /> </a> <a data-zoom-id="xxxyyyzzz" href="/ItemImages/000450/18190933_2_lg.jpeg" data-image="/ItemImages/000450/18190933_2_med.jpeg" > <img src="/ItemImages/000450/18190933_2_sm.jpeg" height="60px" /> </a> <a data-zoom-id="xxxyyyzzz" href="/ItemImages/000450/18190933_3_lg.jpeg" data-image="/ItemImages/000450/18190933_3_med.jpeg" > <img src="/ItemImages/000450/18190933_3_sm.jpeg" height="60px" /> </a> <a data-zoom-id="xxxyyyzzz" href="/ItemImages/000450/18190933_4_lg.jpeg" data-image="/ItemImages/000450/18190933_4_med.jpeg" > <img src="/ItemImages/000450/18190933_4_sm.jpeg" height="60px" /> </a> <a data-zoom-id="xxxyyyzzz" href="/ItemImages/000450/18190933_5_lg.jpeg" data-image="/ItemImages/000450/18190933_5_med.jpeg" > <img src="/ItemImages/000450/18190933_5_sm.jpeg" height="60px" /> </a> </div> </div> </code></pre> <p>我想提取的是以下图像：</p> <pre><code>/ItemImages/000450/18190933_1_sm.jpeg /ItemImages/000450/18190933_2_sm.jpeg /ItemImages/000450/18190933_3_sm.jpeg /ItemImages/000450/18190933_4_sm.jpeg /ItemImages/000450/18190933_5_sm.jpeg </code></pre> <p>这是我的代码：</p> <pre><code>import os import shutil import time import requests from bs4 import BeautifulSoup as bSoup from selenium import webdriver url = "https://auctions.morphyauctions.com/French_Fashion_Doll_with_Unusual_Body_-LOT450029.aspx" driver = webdriver.Chrome(executable_path="/mypath/") driver.get(url) iterations = 0 while iterations <10: html = driver.execute_script("return document.documentElement.outerHTML") sel_soup = bSoup(html, 'html.parser') print (sel_soup.findAll('img')) images = [] for i in sel_soup.findAll('img'): src = i['src'] images.append(src) print(images) current_path = os.getcwd() for img in images: try: file_name = os.path.basename(img) img_r = requests.get(img, stream=True) new_path = os.path.join(current_path, 'images', file_name) with open(new_path, 'wb') as output_file: shutil.copyfilobj(img_r.raw, output_file) del img_r except: pass iterations +=1 time.sleep(5) </code></pre> <p>运行此代码的结果是没有保存图像。任何帮助将不胜感激。</p> </question> <answer tick="false" vote="0"> <p>图像的 html 不是由 Javascript 渲染的，所以你不需要 selenium。使用 beautifulsoup 和 <pre><code>re.compile</code></pre> 来匹配以 <pre><code>href</code></pre> 开头的 <pre><code>a</code></pre> 元素中的 <pre><code>/ItemImages/</code></pre>。</p> <p>注意它使用相对 URL，您需要将域附加到图像 URL。</p> <pre><code>base_url = 'https://auctions.morphyauctions.com' url = base_url + "/French_Fashion_Doll_with_Unusual_Body_-LOT450029.aspx" html = requests.get(url).text sel_soup = BeautifulSoup(html, 'html.parser') images = [] for a in sel_soup.findAll('a', href=re.compile(r'^/ItemImages/')): ahref = base_url + a['href'] # wee need to append the domain here images.append(ahref) print(images) current_path = os.getcwd() for img in images: try: file_name = os.path.basename(img) img_r = requests.get(img) new_path = os.path.join(current_path, 'images', file_name) with open(new_path, 'wb') as output_file: output_file.write(img_r.content) except: print(ex) </code></pre> </answer> </body></html>

javascript python-3.x selenium-webdriver web-scraping beautifulsoup

回答 0 投票 0

如何在Python中下载zip文件并从中解析csv文件

我编写了一个脚本，它点击一个 URL 并下载一个 zip 文件，并将其解压缩。现在我在解析解压后得到的 CSV 文件时遇到问题。导入 csv 从请求导入获取从 io 导入 Byt...

python python-3.x

回答 4 投票 0

在 python3 中使用 BeautifulSoup 提取 html 中的元素时出现问题<script>

我想从下面的 Div 中抓取产品信息，但是当我美化 HTML 时，我无法在 HTML 中找到主 DIV。 <div class="c2p6A5" data-qa-locator="product-item" data-tracking="product-card" 我尝试获取的元素位于以下脚本中。我需要知道如何从下面的脚本中提取数据： <script type="application/ld+json"></script> 我的代码如下： import requests from bs4 import BeautifulSoup url = "https://www.daraz.pk/catalog/?q=dell&_keyori=ss&from=input&spm=a2a0e.searchlist.search.go.57446b5079XMO8" page = requests.get(url) print(page.status_code) print(page.text) soup = BeautifulSoup(page.text, 'lxml') print(soup.prettify()) 只需使用 .find() 或 find_all() 当我这样做时，我看到它实际上是 json 格式，因此可以读取该元素并以这种方式存储所有数据。 import requests from bs4 import BeautifulSoup import json import re url = "https://www.daraz.pk/catalog/?q=dell&_keyori=ss&from=input&spm=a2a0e.searchlist.search.go.57446b5079XMO8" page = requests.get(url) print(page.status_code) print(page.text) soup = BeautifulSoup(page.text, 'html.parser') print(soup.prettify()) alpha = soup.find_all('script',{'type':'application/ld+json'}) jsonObj = json.loads(alpha[1].text) for item in jsonObj['itemListElement']: name = item['name'] price = item['offers']['price'] currency = item['offers']['priceCurrency'] availability = item['offers']['availability'].split('/')[-1] availability = [s for s in re.split("([A-Z][^A-Z]*)", availability) if s] availability = ' '.join(availability) url = item['url'] print('Availability: %s Price: %0.2f %s Name: %s' %(availability,float(price), currency,name)) 输出： Availability: In Stock Price: 82199.00 Rs. Name: DELL INSPIRON 15 5570 - 15.6"HD - CI5 - 8THGEN - 4GB - 1TB HDD - AMD RADEON 530 2GB GDDR5. Availability: In Stock Price: 94599.00 Rs. Name: DELL INSPIRON 15 3576 - 15.6"HD - CI7 - 8THGEN - 4GB - 1TB HRD - AMD Radeon 520 with 2GB GDDR5. Availability: In Stock Price: 106399.00 Rs. Name: DELL INSPIRON 15 5570 - 15.6"HD - CI7 - 8THGEN - 8GB - 2TB HRD - AMD RADEON 530 2GB GDDR5. Availability: In Stock Price: 17000.00 Rs. Name: Dell Latitude E6420 14-inch Notebook 2.50 GHz Intel Core i5 4GB 320GB Laptop Availability: In Stock Price: 20999.00 Rs. Name: Dell Core i5 6410 8GB Ram Wi-Fi Windows 10 Installed ( Refurb ) Availability: In Stock Price: 18500.00 Rs. Name: Core i-5 Laptop Dell 4GB Ram 15.6 " Display Windows 10 DVD+Rw ( Refurb ) Availability: In Stock Price: 8500.00 Rs. Name: Laptop Dell D620 Core 2 Duo 80_2Gb (Used) ... 编辑：查看 2 个 json 结构的差异： jsonObj_0 = json.loads(alpha[0].text) jsonObj_1 = json.loads(alpha[1].text) print(json.dumps(jsonObj_0, indent=4, sort_keys=True)) print(json.dumps(jsonObj_1, indent=4, sort_keys=True))

python-3.x web-scraping beautifulsoup jupyter-notebook

回答 1 投票 0

为什么 print("...")，即连续三个点，打印出空白？

我想连续打印三个点（以形成省略号），但 print() 打印空白。 print("一会儿...") 一会儿... 打印（”...”）打印（”..”） .. 打印（“......

python python-3.x pycharm

回答 1 投票 0

在python3中使用递归来反转列表

为什么这段代码不能按预期工作？我知道还有其他方法可以使用递归来反转列表但我特别感兴趣的是为什么这种方法不起作用。 def 反向(nums): 如果 len(n...

python-3.x list recursion slice

回答 1 投票 0

python-3.x 相关问题

最新问题