web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

如何在Beautiful Soup中使用相同的标记来提取特定的嵌套元素？

我是Python的新手，所以我仍然想弄清楚美丽的汤。我试图抓取一个网站并拉出五个元素，紧跟我在代码中找到的标记。我有 ...

python web-scraping beautifulsoup

回答 3 投票 1

在网页抓取时，我无法在下拉列表中找到选项

我试图在抓取网站时循环遍历所有选项。问题是选项似乎隐藏在javascript应用程序中，我找不到需要的元素...

python selenium web-scraping

回答 1 投票 1

Scrapy蜘蛛只返回列表中的最后一项

我正在构建一个抓取器来抓取一个页面并从div中返回多个项目（h3和p标签）。出于某种原因，刮刀将在调用时打印所有“名称”字段，但仅保存信息...

web-scraping scrapy web-crawler

回答 1 投票 0

Scrapy CrawlSpider parse_item用于302重定向响应

我正在使用Scrapy CrawlSpider来抓取网站并处理其网页内容。为此，我使用Scrapy Docs Crawlspider示例。链接上的特定页面包含参数...

redirect web-scraping scrapy web-crawler

回答 2 投票 2

vba使用单元格数据在站点上检查匹配的单词然后下载它们

excel单元格中有单词，它会检查给定网站的单词，屏幕打印网站并使用所用单词的名称保存屏幕打印，然后将webaddress插入到旁边的单元格中...

excel vba web-scraping ocr tesseract

回答 1 投票 0

从输入值中刮取数据

有网站有： First name:

javascript iframe web-scraping

回答 2 投票 2

将许多html表读入R中

我正在尝试将html数据表拉入单个数据框，我正在寻找一个优雅的解决方案。共有255个表格，网址因两个变量而异：年份和Aldermanic区域。我知道 ...

r web-scraping xml-parsing

回答 2 投票 0

在python中的刮表

请问有人请帮我从大表上搜索数据https://www.statsinsider.com.au/prediction-results?fbclid=IwAR18wxeCq_ygxLG1v2JEe3YqBNNS6krzNnOQULYp4IZihQY6JMgHwzpIl6o我有一些......

python web-scraping beautifulsoup scrapy

回答 2 投票 1

如何使用Ruby抓取动态网站

我想抓一个反应网站，其中包含名称和描述的产品。 html结构如下所示：

ruby-on-rails reactjs dynamic web-scraping nokogiri

回答 1 投票 0

解析美丽汤后原始网页上的链接丢失

如果我的解释看起来很简单，请原谅。我是蟒蛇和美味汤的新手。我正在尝试从以下网站提取数据：https：//valor.militarytimes.com/award/5？page = 1 ...

python web-scraping beautifulsoup

回答 3 投票 0

检查div类是否存在会返回错误

我在使用beautifulsoup登录一些产品后尝试从网页上删除网页。有一种情况是产品不再可用。网页上有一个div类，如下所示......

python web-scraping beautifulsoup

回答 2 投票 1

无头硒突然停止工作

我已经使用Selenium和python进行网络刮擦了几个星期了。它一直很好用。一直在运行macOS和Windows 7.然而突然间无头网络驱动程序......

python selenium selenium-webdriver web-scraping

回答 2 投票 1

如何刮一个有困难的桌子阅读的网站（熊猫和美味的汤）？

我试图从https://www.seethroughny.net/payrolls/110681345抓取数据，但该表很难处理。我尝试了很多东西。导入pandas为pd import ssl import csv ssl ....

python web-scraping html-table beautifulsoup

回答 1 投票 0

为什么我从不同的位置获得不同的http响应？

我正在开展一项任务，我需要网站剪贴簿boxofficemojo网站。我编写了一切，它在我的本地机器上工作得非常好。我需要抓大约19000个网址。作为......

python amazon-web-services amazon-ec2 web-scraping python-requests

回答 1 投票 0

xpath刮出空白，有什么问题？

我试图刮掉一篇文章，我所针对的课程不起作用。我无法弄清楚def timeParse（link）：page = requests.get（http：//time.com/5556373/jared -...

python web-scraping

回答 1 投票 0

Selenium ExecuteScript

我之前写的一个宏用于IE浏览器，其中JS（Angular）代码执行如下：oie.document.parentWindow.execScript“angular.element（'[data-ng-click =”“clickButton”“] “）....

vba selenium-webdriver web-scraping selenium-chromedriver

回答 1 投票 2

使用beautifulsoup4进行抓取时数据丢失

实际上我是使用Python Beautifulsoup4解析东西的新手。我在抓这个网站。我需要首页上的当前每百万价格。我已经用了3个小时。一边看...

python python-3.x web-scraping beautifulsoup python-requests

回答 4 投票 3

Puppeteer不会在无头模式下返回HTML标签，但是当它不在无头模式时 - 这是为什么？

我最近开始在JavaScript中尝试使用Puppeteer进行网页编写，并注意到当我使用无头Puppeteer实例运行我的代码时，它不会返回我正在寻找的标签...

javascript node.js web-scraping puppeteer

回答 1 投票 0

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

我尝试使用其URL链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我点击URL链接时，页面上会显示评论内容，...

python web-scraping beautifulsoup data-extraction

回答 1 投票 1

如果错误代码是404，如何在wget中获取确切的页面内容

我有两个url一个是工作url另一个是页面删除url.working url很好但是对于页面删除url而不是获取确切的页面内容wget接收404工作url import os def ...

python-3.x curl web-scraping wget

回答 1 投票 1

web-scraping 相关问题

最新问题