Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
我正在尝试扫描一堆维基百科页面,以获取有关二战的统计数据。我正在使用BeautifulSoup尝试从维基百科页面右侧的列中获取所有统计信息。代码 ...
我有以下代码给我正确的href链接到产品详细信息页面,但是,我的scrape结果显示一个空列表。我想获取“add-to -...”下的产品说明。
我用硒,beautifulsoup报废一个地方。需要总数没有。网页中的页面或其他导航页面的方式
我正在使用selenium webdriver和美丽的汤来刮一个具有可变数量的多页的网站。我是通过xpath粗暴地做的。页面显示五页,计数后五页...
我有时会遇到具有奇怪属性的html,比如fb:share:layout。 ......
想要从“下一页”选项卡中提取“视图”中的链接,意味着来自bs4中的n个页面导入BeautifulSoup导入请求r = requests.get('https://old.mciindia.org/InformationDesk/ .. 。
我试图刮一个食谱网站,我发现麻烦试图将字符串分成不同的句子后 标签。为了更好地理解这个问题,我将展示......
如何从HTML tag using Regex in Python?中提取Facebook页面URL
我正在抓一些网站使用Beautiful Soup在Python 3中提取Facebook页面URL。我有兴趣为每个网站只提取一个URL,并重定向到Facebook页面配置文件......
我想从下面的标签中使用python和美丽的汤100 -0.10获得值100 ...
如何在项目对象中正确存储抓取的数据并将每个集保存到1个csv文件?
所以我让我的小蜘蛛工作得很好。我按预期获得了所有数据。我利用设置我的items.py来捕获我想要的7个数据。我可以将数据写入文件......
使用Regex可以简化这个beautifulsoup脚本吗?或者这是吗?
我写了一些beautifulsoup脚本,其中一部分似乎真的多余,我在想是否可以用Regex简化它。这个论坛的所有帖子都标有不同的颜色,我做的是......
我正在尝试使用此代码搜索Yahoo查询:从bs4导入请求导入BeautifulSoup query =“deep”yahoo =“https://search.yahoo.com/search?q=”+ query +“&n =”+ str(10)......
我写了一些愚蠢的代码用于学习,但它不适用于任何网站。这里是代码:import urllib2,重新从BeautifulSoup导入BeautifulSoup作为Soup类创始人:def ...
漂亮的汤find_all()方法比filter指定更多的标签
我有以下xml, https://mystore.com/products-t-shirt.xml 2019-04-11T00:01:42-04:00 日常&...
Python 3.7- PhantomJS - Driver.get(url)'窗口句柄/名称无效或已关闭?'
使用两个函数来刮取网站会导致driver.get错误。我已尝试使用while和for循环的不同变体来实现此功能。现在我得到一个driver.get错误。最初的功能......
当我按类搜索时,为什么BeautifulSoup的findAll会返回一个空列表?
我正在尝试使用h2标记进行网络抓取,但BeautifulSoup返回一个空列表。 HTML =的urlopen(“HTTPS://careersus-endologix.icims.com/jobs/2034 / ...
我有一些我希望解析的xml代码。我希望使用ElementTree而不是BeautifulSoup,因为我对后者处理xml的方式有一些问题。我希望从...中提取文本
用文本替换html文件中的表...(例如@@ ##这里有一张表)
我正在使用beautifulsoup从python中的html文件中提取文本。我想提取所有文本数据并丢弃表格。但是我们可以做一些事情用文本替换html中的表格(例如“@ ...
使用BeautifulSoup登录并抓取像ft.com这样的网站
我有这个网址:https://www.ft.com/content/87d644fc-73a4-11e7-aca6-c6bd07df1a3c它对应于需要注册的文章。我注册了,可以在我的浏览器中查看内容。但是......
使用bs4从javascript json类型数据中提取键值数据
我试图从网页的HTML中提取一些信息。但是正则表达式方法和列表理解方法都不起作用。在http://bitly.kr/RWz5x,有一些叫做encparam的密钥......