web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Python - Beautifulsoup | ValueError:不支持或无效的CSS选择器:“

我试图从fareham.gov.uk网页上删除一个应用程序,每次我尝试它都会返回错误而不是参考号。有人可以帮我解决这个问题吗?我是新来的......

回答 1 投票 0

r:抓取javascript web工资

我试图刮网页,因此我使用了read_html命令。但我无法废弃我想要的桌子。我认为这个页面是用javascript。我不知道如何处理它。这是我的......

回答 1 投票 0

使用python 3和Selenium来抓取动态生成的表

我是Python的新手,并试图抓取动态生成的表。我已经足够打开页面,输入搜索,并显示结果表。我在抓刮......

回答 1 投票 0

完整的HTML文本无法打印到控制台

我正在从以下地址进行网页抓取:https://www.pro-football-reference.com/boxscores/201809060phi.htm我想将HTML文本打印到控制台,以便我可以阅读它并...

回答 1 投票 0

(HTML Scraping)列的XPath根据颜色而变化

我试图解析本网站专栏中的所有值(使用不同的股票代码)。我正在使用Python并使用XPath来抓取HTML数据。可以说我想提取......

回答 1 投票 1

python请求.status_code没有返回正确的值

查看这里的文档:http://docs.python-requests.org/en/latest/user/quickstart/这应该打印200,它确实。导入请求r = requests.get('http://souke.xdf.cn/Category/1-40-0 -...

回答 3 投票 1

如何废弃审查数据在阅读更多Flipkart评论中

我正在尝试使用请求和beautifulsoup包来抓取Flipkart提取产品的评论。我们可以取出存在于这些评论中的更多点击事件中的数据。

回答 1 投票 0

使用Python将url作为文本获取时出现关键错误

我正在尝试获取数据并导出到CSV,我有主URL页面和第二个URL主页,我已导入以下这些:从bs4 import BeautifulSoup import urllib.request from ...

回答 1 投票 1

错误'NoneType'对象没有属性'find'有时会导致

我正在通过从赛马结果网站提取数据来学习使用Python(3.7)和BS4进行网络抓取。该网站是http://racing.hkjc.com/racing/Info/Meeting/Results/English/Local/20080412/ST/5 ...

回答 1 投票 0

从页面抓取数据

`webpage%html_nodes(“table”)%>%。[[1]]%>%html_table(...

回答 1 投票 0

Rvest webscraping有限的结果(R)

我是webscraping的新手,并尝试了几种方法来跨多个页面执行rvest。不知怎的,它仍然没有工作,我只得到15个结果,而不是这个列出的207个产品......

回答 1 投票 1

从javascript控制台触发Ember操作

我对Ember知之甚少,但我正试图操纵一个Ember网络应用程序。 DOM中有一个元素具有此属性“data-ember-action-981 =”981“”,我想触发该函数...

回答 1 投票 0

在单个HtmlNodeCollection中获取所有表tr数据c#

我需要使用HTML Agility Pack从所有表中检索所有tr。 HTML: ...

回答 1 投票 1

Python Web Scrape:删除输出中多余的HTML标记。所有数据都来自页面表,get_text和pretiffy不起作用

新手在这里。我只是靠自己练习python。我的问题是这样的:我正在网上抓这个ramdom网站,我想得到文件名和提交者并将它们打印在一起。但多余......

回答 1 投票 0

VBA将内部文本从html页面传输到excel

这个图像显示我使用下面的宏但是这个代码在打开两个或三个URL后停止,我们看到以下错误消息,1。运行时错误91 2.对象变量或...

回答 1 投票 -1

使用Haskell进行网页搜索

使用Haskell抓取网站的库的当前状态是什么?我正努力让自己在Haskell做更多快速的一次性任务,以帮助提高我的舒适度......

回答 4 投票 50

从HTML,CSS和JavaScript中获取干净的字符串

目前,我正试图在sec.gov上搜索10-K提交文本文件。这是一个示例文本文件:https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt ...

回答 1 投票 5


Webscraping:从javascript链接下载pdf

我正在python中使用请求库,并试图抓取一个包含大量.pdf格式的公共报告和文档的网站。我已经在其他网站上成功完成了这项工作,但我...

回答 1 投票 3

Python Selenium - 点击没有下一个按钮的页面

我想通过点击它们从多个网页中检索信息(见图1和图2)。问题是a)没有下一个按钮和b)即使页面链接包含...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.