beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

如何在 beautifulsoup 中处理正则表达式

check_regex = re.compile("HO\s?#",re.IGNORECASE) check_ho_number3 = soup.select_one('td:-soup-contains("HO #")+ td') 打印(check_ho_number3) 有没有什么办法可以处理...

回答 1 投票 0

在网站中链接多个ajax请求以显示更多页面并在单页中获取完整列表

我想在单击“显示更多”按钮时向下滚动时获得完整页面https://icomarks.ai/icos/。它应该显示大约 8000 个元素。 显示更多按钮激活 POST 请求“...

回答 1 投票 0

如何使用 Python 和 Beautiful Soup 从 BBC 文章中抓取标题?

我之前构建过一个 BBC 抓取工具,除其他外,它还可以从给定的文章(例如本文)中抓取标题。然而,BBC 最近更改了他们的网站,所以我需要修改我的抓取工具,

回答 1 投票 0

如何从 Fast.com 获取网速结果

我想定期检查我的互联网速度,如果它下降到某个阈值,则重置我的路由器,这似乎可以修复我的 ISP“提供”的糟糕连接。 尽管可能有更简单的方法...

回答 4 投票 0

如何使用BeautifulSoup从多个页面提取数据

我正在尝试从网站上抓取数据,但有点陷入多页面问题。不知何故,我的迭代总是导致“所有数组必须具有相同的长度”有人可以帮助我吗...

回答 1 投票 0

从动态加载的页面中抓取网页内容(无限滚动)

我正在尝试从该网站收集所有图像文件名:https://www.shipspotting.com/ 我已经收集了所有类别名称及其 ID 号的 python 字典 cat_dict。所以我的力量...

回答 3 投票 0

初学者问题网页抓取(需要帮助)

我只是想问你是否可以告诉我这个网站是否可以废弃。 我尝试了很多方法但没有结果。 所以我只是想知道。 https://www.enterprise.com/en/car-rental.html?icid=header.

回答 1 投票 0

使用 python 在 Barchart.com 上自动下载文件

我想从此链接自动下载表格: https://www.barchart.com/options/iv-rank-percentile/stocks 为了做到这一点,在一些教程的帮助下,我写了这篇

回答 2 投票 0

bs4 中的 Soup.find 无法从 h1 标签中抓取,但适用于所有其他 HTML 标签

我在使用 BeautifulSoup 4 时遇到问题。我的代码运行良好,然后开始出错,无法再从 h1 标签收集内部文本。奇怪的是,它与所有功能都完美配合

回答 1 投票 0

从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?

我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将上面提取的数据类型存储在哪种类型中

回答 1 投票 0

用于创建一个列,其子区域与现有列中的区域相对应

有一个列表 bareas = ['Hosa 路', 'Agara', 'Koramangala 4th block', 'Ali Asker 路', 'Singasandra'] (它是一个相当长的列表,因此仅在此处添加一些项目)。我想创建一个名为“

回答 1 投票 0

用python解析HTML+CSS时获取标签中文本大小的最佳方法是什么?

我正在使用 python 和 beautifulsoup4 抓取实时网站的 HTML 页面。我希望能够获取任何 html 标签的文本大小。我尝试使用 cssutils 解析 CSS 并找到字体大小 par...

回答 1 投票 0

如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

这是网站的网址 https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL 所以我想在没有浏览器自动的情况下用 python 抓取这个网站...

回答 1 投票 0

网络抓取功能可通过搜索栏循环项目并返回特定关键字作为答案

有一个列表 bareas = ['Hosa 路', 'Koramangala 第四街区', 'Ali Asker 路', 'Singasandra'] (它是一个相当长的列表,所以只在这里添加一些项目)。我想创建一个函数,以便每个项目......

回答 1 投票 0

抓取网页并加载更多

我正在尝试抓取网站:每日时间。我无法抓取某个关键字的所有新闻标题和链接,例如“芭比娃娃”。 “加载更多”后我无法抓取信息。什么...

回答 1 投票 0

无法使用Beautifulsoup和Request从span标签中提取文本

我正在尝试删除此在线论坛上的帖子。 https://csn.cancer.org/categories/prostate 所有帖子似乎都在跨度标签中。 我使用下面的代码来废弃帖子。 导入请求 来自 BS4 我...

回答 1 投票 0

Python 使用请求登录困难的网站

登录并重定向到 https://www.fpl.com/northwest/my-account 后,我尝试从 https://www.fpl.com/my-account/login.html 抓取数据/能源仪表板。我已经检查过 si...

回答 1 投票 0

BeautifulSoup:超过 24 个字符(从 a 到 z)的迭代失败:降低复杂性以初步了解数据集:

我在网站上有一份西班牙保险公司名单 - 分为 24 个标题:请参阅以下内容 保险 - 西班牙语: 完整列表:https://www.unespa.es/en/directory 它分为24...

回答 1 投票 0

在Python中抓取网页时表格不出现

我发生了一件有趣的事情,但我不知道发生了什么。我正在尝试从以下位置进行网络抓取: https://www.pro-football-reference.com/teams/kan/2023_roster.htm 我想要的桌子...

回答 0 投票 0

请求获取的数据与浏览器不同

如果我尝试下载 https://www.conrad.ch/de/p/42105-lego-technic-katamaran-2255199.html 的 HTML 代码来解析价格。但是,我得到的代码与我眉毛中的代码完全不同......

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.