web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在Beautiful Soup中使用相同的标记来提取特定的嵌套元素?

我是Python的新手,所以我仍然想弄清楚美丽的汤。我试图抓取一个网站并拉出五个元素,紧跟我在代码中找到的标记。我有 ...

回答 3 投票 1

在网页抓取时,我无法在下拉列表中找到选项

我试图在抓取网站时循环遍历所有选项。问题是选项似乎隐藏在javascript应用程序中,我找不到需要的元素...

回答 1 投票 1

Scrapy蜘蛛只返回列表中的最后一项

我正在构建一个抓取器来抓取一个页面并从div中返回多个项目(h3和p标签)。出于某种原因,刮刀将在调用时打印所有“名称”字段,但仅保存信息...

回答 1 投票 0

Scrapy CrawlSpider parse_item用于302重定向响应

我正在使用Scrapy CrawlSpider来抓取网站并处理其网页内容。为此,我使用Scrapy Docs Crawlspider示例。链接上的特定页面包含参数...

回答 2 投票 2

vba使用单元格数据在站点上检查匹配的单词然后下载它们

excel单元格中有单词,它会检查给定网站的单词,屏幕打印网站并使用所用单词的名称保存屏幕打印,然后将webaddress插入到旁边的单元格中...

回答 1 投票 0

从输入值中刮取数据

有网站有: First name:

回答 2 投票 2

将许多html表读入R中

我正在尝试将html数据表拉入单个数据框,我正在寻找一个优雅的解决方案。共有255个表格,网址因两个变量而异:年份和Aldermanic区域。我知道 ...

回答 2 投票 0

在python中的刮表

请问有人请帮我从大表上搜索数据https://www.statsinsider.com.au/prediction-results?fbclid=IwAR18wxeCq_ygxLG1v2JEe3YqBNNS6krzNnOQULYp4IZihQY6JMgHwzpIl6o我有一些......

回答 2 投票 1

如何使用Ruby抓取动态网站

我想抓一个反应网站,其中包含名称和描述的产品。 html结构如下所示:

回答 1 投票 0

解析美丽汤后原始网页上的链接丢失

如果我的解释看起来很简单,请原谅。我是蟒蛇和美味汤的新手。我正在尝试从以下网站提取数据:https://valor.militarytimes.com/award/5?page = 1 ...

回答 3 投票 0

检查div类是否存在会返回错误

我在使用beautifulsoup登录一些产品后尝试从网页上删除网页。有一种情况是产品不再可用。网页上有一个div类,如下所示......

回答 2 投票 1

无头硒突然停止工作

我已经使用Selenium和python进行网络刮擦了几个星期了。它一直很好用。一直在运行macOS和Windows 7.然而突然间无头网络驱动程序......

回答 2 投票 1

如何刮一个有困难的桌子阅读的网站(熊猫和美味的汤)?

我试图从https://www.seethroughny.net/payrolls/110681345抓取数据,但该表很难处理。我尝试了很多东西。导入pandas为pd import ssl import csv ssl ....

回答 1 投票 0

为什么我从不同的位置获得不同的http响应?

我正在开展一项任务,我需要网站剪贴簿boxofficemojo网站。我编写了一切,它在我的本地机器上工作得非常好。我需要抓大约19000个网址。作为......

回答 1 投票 0

xpath刮出空白,有什么问题?

我试图刮掉一篇文章,我所针对的课程不起作用。我无法弄清楚def timeParse(link):page = requests.get(http://time.com/5556373/jared -...

回答 1 投票 0

Selenium ExecuteScript

我之前写的一个宏用于IE浏览器,其中JS(Angular)代码执行如下:oie.document.parentWindow.execScript“angular.element('[data-ng-click =”“clickButton”“] “)....

回答 1 投票 2

使用beautifulsoup4进行抓取时数据丢失

实际上我是使用Python Beautifulsoup4解析东西的新手。我在抓这个网站。我需要首页上的当前每百万价格。我已经用了3个小时。一边看...

回答 4 投票 3

Puppeteer不会在无头模式下返回HTML标签,但是当它不在无头模式时 - 这是为什么?

我最近开始在JavaScript中尝试使用Puppeteer进行网页编写,并注意到当我使用无头Puppeteer实例运行我的代码时,它不会返回我正在寻找的标签...

回答 1 投票 0

注释在网页上可见,但BeautifulSoup返回的html对象不包含注释部分

我尝试使用其URL链接从网页中提取评论的文本内容,并使用BeautifulSoup进行抓取。当我点击URL链接时,页面上会显示评论内容,...

回答 1 投票 1

如果错误代码是404,如何在wget中获取确切的页面内容

我有两个url一个是工作url另一个是页面删除url.working url很好但是对于页面删除url而不是获取确切的页面内容wget接收404工作url import os def ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.