beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

我的Python网页抓取代码有问题

我正在编写一些代码，可以让我每周更新特定史诗游戏商店页面的新闻，但目前我陷入了网站的 html 数据抓取部分。我写的代码是...

python web-scraping beautifulsoup python-requests

回答 1 投票 0

使用 Selenium 抓取 Instagram 时如何获取轮播帖子的图像 src

我正在尝试使用 Selenium 抓取 Instagram 照片。该脚本正在努力获取所有类型帖子（单张、视频、轮播）的第一张图片，但是当我尝试获取任何后续图片的 src 时...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

使用正则表达式进行 Python 网页抓取

有人可以帮助我编写一些代码来从游戏中获取统计数据吗？我可以将 HTML 放入 BeautifulSoup，但我不知道如何正确格式化正则表达式以获取规范...

python regex web-scraping beautifulsoup

回答 2 投票 0

尝试构建Python API，但由于未找到Quart库而出现此错误

发生异常：ModuleNotFoundError 没有名为“quart”的模块> 文件路径“C:\xxxxxS\xx\xxxl\NewProjects\xxxx\my_api_env pp.py”，第 3 行，位于从夸脱导入夸脱，请求，jso...

python beautifulsoup quart

回答 1 投票 0

网络抓取工具未抓取所需文本

我正在尝试抓取此网站上的 sku 和描述： https://www.milwaukeetool.com/products/power-tools/drilling/drill-drivers 但是，尽管代码是...

python selenium-webdriver web-scraping beautifulsoup python-requests

回答 1 投票 0

即使满足预期条件，Selenium WebDriverWait try/finally 语句也会失败

我正在按照Selenium网站上的文档了解如何在继续之前等待Ajax响应，虽然找到了正确的动态加载信息，但仍然出现超时错误

python selenium-webdriver beautifulsoup

回答 1 投票 0

UnicodeWarning：Unicode 相等比较。如何替换 NavigableString 数据类型中的非标准字符？

我正在使用 BeautifulSoup 使用 Python 2.7 抓取一个网站。这是我的代码： # -*- 编码：utf-8 -*- 从 BeautifulSoup 导入 BeautifulSoup 导入urllib 导入 json url = 'http://www.website.com'

python-2.7 web-scraping beautifulsoup unicode urllib

回答 1 投票 0

BeautifulSoup 和 lxml.html - 更喜欢哪个？ [重复]

我正在开发一个涉及解析 HTML 的项目。四处搜索后，我发现了两个可能的选择：BeautifulSoup 和 lxml.html 有什么理由更喜欢其中一种吗？我有...

python beautifulsoup lxml

回答 4 投票 0

Beautifulsoup 无法使用 attrs=class 提取数据

我正在为一个研究项目提取数据，并且我已在许多网站中成功使用 findAll('div', attrs={'class':'someClassName'}) 但这个特定网站，网站链接不回来...

python html web-scraping beautifulsoup

回答 2 投票 0

亚马逊抓取产品详细信息页面

导入请求 URL =“https://www.amazon.com/TRESemm%C3%A9-Botanique-Shampoo-Nourish-Replenish/dp/B0199WNJE8/ref=sxin_14_pa_sp_search_thematic_sspa?content-id=amzn1.sym.a15c61b7-4b93-404d-bb70 -

python web-scraping beautifulsoup

回答 2 投票 0

使用 BeautifulSoup 提取后将字符串转换为数据帧

导入请求将 pandas 导入为 pd 从 bs4 导入 BeautifulSoup as bs 从 io 导入 StringIO url =“https://www.tickertape.in/stocks/oil-and-natural-gas-corporation-ONGC” r = 请求...

python pandas string beautifulsoup

回答 2 投票 0

BeautifulSoup：如何提取特定html标签后的数据

我有以下 html，我试图弄清楚如何告诉 BeautifulSoup 在某些 html 元素之后提取 td 。在这种情况下，我想在 Color 之后获取

python html web-scraping beautifulsoup

回答 1 投票 0

BeautifulSoup：跳过 html 元素

我有以下html结构：这只是其中的一部分，但我认为这个片段足以解释我的问题。色彩文摘 AgAkAZwCJ...

python html web-scraping dom beautifulsoup

回答 2 投票 0

BeautifulSoup：提取 img alt 数据

我有以下图像 html，我正在尝试解析 alt 中的信息。目前我能够成功提取图像。 html（我目前解析的我有以下图像 html，我正在尝试解析 alt 中的信息。目前我能够成功提取图像。 html（我目前解析的内容 <img class="rslp-p" alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver" src="http://i.ebayimg.com/00/$(KGrHqZ,!j!E5dyh0jTpBO(3yE7Wg!~~_26.JPG?set_id=89040003C1" itemprop="image" /> 我根据我解析的内容构建图像名称：当前代码 def main(url, output_folder="~/images"): """Download the images at url""" soup = bs(urlopen(url)) parsed = list(urlparse.urlparse(url)) count = 0 for image in soup.findAll("img"): print image count += 1 print count print "Image: %(src)s" % image image_url = urlparse.urljoin(url, image['src']) filename = image["src"].split("/")[-1].split("?")[0].replace("$",'').replace(".JPG",".jpg").replace("~~_26",str(count)).lstrip("(") parsed[2] = image["src"] outpath = os.path.join(output_folder, filename) urlretrieve(image_url, outpath) 我想做的是提取 alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver" 我还想在提取图像时使用替代数据作为文件名。在你的for循环中，你可以通过简单地做来获得它 image.get('alt', '') 这在BeautifulSoup 的文档（“标签的属性”）中进行了解释。

python html web-scraping beautifulsoup

回答 1 投票 0

BS4 并请求仅查找和抓取下拉列表中第一个列出的项目

我编写了一个抓取工具，用于从 2 个不同的 URL 获取一些数据。两个页面之间的唯一区别在于，一个页面有菜单下拉列表，而另一个页面则没有。刮刀

web-scraping beautifulsoup python-requests drop-down-menu

回答 1 投票 0

我的美丽汤库没有从列出的显示中提取所有锚元素

嗨，我对网络抓取非常陌生，我正在尝试它的基础知识。现在，我想从根网站（coventry.gov.uk）提取链接。然而问题是，我无法得到...

python web-scraping beautifulsoup html-parsing

回答 1 投票 0

用 beautifulsoup 克隆元素

我必须将一个文档的一部分复制到另一个文档，但我不想修改我复制的文档。如果我使用 .extract() ，它会从树中删除该元素。如果我只是附加选定的元素 l...