web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

recaptcha 3如何知道我正在使用selenium / chromedriver?

我很好奇Recaptcha v3是如何工作的。特别是浏览器指纹识别。当我通过selenium / chromedriver启动chrome实例并对ReCaptcha 3进行测试时(https:// recaptcha-demo ....

回答 2 投票 1

无法在硒中找到元素

我正在尝试使用Selenium WebDriver在网站上输入ID和密码,但我的代码不起作用。它似乎无法找到一个元素。我检查了HTML代码并找到了值。这是我的 ...

回答 1 投票 1

运行Scrapoxy和数字海洋的问题

我正在尝试用数字海洋运行Scrapoxy。我成功创建了一个Droplet图像并配置了Scrapoxy。当我启动Scrapoxy时,它会继续创建一个新实例并绕过最大限制。它......

回答 1 投票 0

使用scrapy发布请求/表单提交会导致错误404

我正在学习如何使用scrapy构建一个蜘蛛来抓取这个网页:https://www.beesmart.city。要获得访问权限,必须在此处提交表单:https://www.beesmart.city/login ...

回答 1 投票 0

美丽的汤 - 空白屏幕很长一段时间没有任何输出

我是python的新手,我正在开发基于抓取的项目 - 我应该从包含特定搜索词的链接中提取所有内容并将它们放在csv文件中。作为一个 ...

回答 2 投票 -2

单击通过selenium链接

我正在尝试通过Selenium做一些webscraping。我的问题很简单:你如何找到一个链接然后如何点击它?例如:以下是我想要网页的HTML -...

回答 4 投票 26

刮表时'列表索引超出范围'问题

我正在尝试从维基百科页面中删除表格https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M我得到了html,找到了包含我想要的表格的部分:

回答 2 投票 1

如何从网页中删除特定ID

我需要做一些房地产市场研究,并为此需要价格,以及新房的其他价值。所以我的想法是去我获取信息的网站。去主要 - ...

回答 1 投票 2

管理木偶操作员的内存和性能

我正在使用puppeteer来抓取一些页面,但我很好奇如何在节点应用程序的生产中管理它。我将在一天内刮掉多达500,000页,但这些刮擦工作将在......

回答 2 投票 4

使用BeautifulSoup进行刮擦时,我遇到的这些不同错误是什么?

我正在试图抓住这个名为whoscored.com的网站,这里是我用来刮掉它的特定页面的简单代码。导入请求将pandas导入为bs4中的pd导入BeautifulSoup headers = ...

回答 1 投票 0

Puppeteer - 协议错误(Page.navigate):目标已关闭

正如您在下面的示例代码中所看到的,我正在使用Puppeteer与Node中的一组工作人员通过给定的URL运行多个网站截图请求:const cluster = require('cluster'); ...

回答 1 投票 4

使用Python和BeautifulSoup启动Web Scraping - 分步教程中的错误

按照本教程关于使用Python和BeautifulSoup进行Web Scraping来学习绳索 - 但是Pycharm会返回一个我不明白的错误你好!试过上面提到的......

回答 1 投票 1

麻烦我的脚本打印无如果没有结果显示

我在节点中使用request和cheerio创建了一个脚本,以从网页中获取不同帖子的标题及其相关链接。我的脚本可以正确的方式获取它们。事情就是......

回答 2 投票 0

使用Python从网站上刮取和排序日期

我试图从网站的某些结果中排序日期。我找到了标签之间的日期

回答 1 投票 2

如何使用正则表达式从两个相似的html类元素中提取数据?

如何使用python正则表达式从以下html片段中提取向上投票(215)和向下投票(82)计数?

回答 2 投票 1

如何更改我的代码以从HTML代码获取URL链接?

我尝试使用beautifulsoup4来删除python中HTML代码的URL,但是我得到了如下错误:AttributeError:'NoneType'对象没有属性'get'HTML code:

回答 1 投票 2

如何使用BS4捕获异常跨度标签中的数据?

我正在努力抓一个网站工作,我不能得到美丽的汤来刮取不寻常标签之间的某些文字。我只搜索了一个span标签,它显示在结果中但是我...

回答 2 投票 0

如何制作一个解析名称为“patch”或“fix?”的链接的webcrawler。

我正在尝试为Debian GSoC项目的应用程序任务编程,我已经能够解析从Internet下载的文本文件,但我很难从...下载补丁。

回答 1 投票 1

单击导航栏可以正常工作。但HTML href指向其他东西

我正在尝试收集BCC Research市场分析报告中的一些元数据。他们拥有不同主题的数据,如先进材料,生物技术等。如果你在一个主题下,说...

回答 1 投票 0

无法使用python脚本获取api密钥[关闭]

我在python中创建了一个脚本,以便从网页中获取不同的sumbol及其值。我用这个附加链接来收集所需的内容,但我注意到该页面的内容会产生......

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.