web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

阵列里面的那些三点是什么?标有评论[重复]

我正在学习如何在节点js中进行web scrape并遇到这种数组。什么意思? articles = [//这是什么......文章,...新闻文章];

回答 1 投票 -2

从Google搜索中收集链接文本和链接href

我尝试从谷歌搜索中收集链接和链接文本(仅限前10个),这是我的代码:从lxml导入请求导入html导入时间导入re headers = {'User-agent':'Mozilla / 5.0(。 ..

回答 1 投票 0

AngleSharp - 如何浏览其链接触发表单提交的网站

我试图从本网站的多个搜索结果页面中删除“阅读更多”链接:https://www.cgg.com/en/31搜索结果的任何特定页面都没有规范链接。什么时候 ...

回答 1 投票 0

从网站提取链接和项目名称并打印这些列表

我是python Programming的初学者,我正在使用bs4模块在Python中练习web抓取。我试图从网站中提取一些信息,如下所示。每个显示的列表......

回答 2 投票 -2

尝试使用Selenium和Python使用框架和Javascript的网页登录时出现ERR_TOO_MANY_REDIRECTS错误

我正在尝试自动登录网页以下载每日xml。我知道我需要有实际的框架网址,我认为是http://shop.braintrust.gr/shop/store/customerauthenticateform ....

回答 1 投票 1

Scrapy不生成outputcsv文件

我创建了一个使用selenium plus scrapy的蜘蛛,它表明它确实刮掉了现在直到昨天使用相同的脚本我能够将输出写入csv文件但现在在...

回答 1 投票 1

BeautifulSoup找到所有表空

我试图从NOAA网站上刮一个非常简单的表:https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat该表是一个“.dat”文件,该网站出现将在 ...

回答 1 投票 2

带有JSON主体的API的VBA HTTP请求返回空数组(Excel中的MSXML2.XMLHTTP)

更新:已解决 - >请在下面查看答案。更新:在Microsoft文档中我可以看到,当使用Async = false调用open方法时,如果“协议栈超时”,则响应可能不会返回,...

回答 1 投票 1

从两个不同的BeautifulSoup输出打印URL

我正在使用BeautifulSoap批量抓取几个URL。这是我的脚本(只有相关的东西):从bs4导入urllib2导入BeautifulSoup quote_page ='https://example.com/foo/bar'page = urllib2 ....

回答 2 投票 0

VBA从span类中提取值

我正在使用vba使用.getElementsByClassName从HTML中提取值,但目前没有太多运气。我正在尝试从以下HTML中提取“20+”

回答 2 投票 4

如何制作一个分页特定页面(页面每天不同)的分页循环

总结我正在研究我的供应链管理大学项目,并希望分析网站上的每日帖子,以分析和记录行业对服务/产品的需求。特定页面......

回答 1 投票 0

忽略BeautifulSoup中同一个类的两个div中的第一个

我想使用相同的class =“description”刮掉一些有2个div的URL,示例URL的源代码如下: ...

回答 3 投票 0

使用puppeteer在新标签页中打开报废页面

我现在有一个项目列表,点击每个项目打开新标签,我需要解析并返回到原始页面,然后单击下一个项目。所以这需要为所有人重复做...

回答 1 投票 0

在抓取站点时从服务器获取数据

我从特定网站中提取了项目,现在想将它们写入.xls文件。我期待一份包含标题和行信息的完整Excel表格,但只能获得一张表格...

回答 1 投票 0

从列表运行URL的Python脚本并输出到txt

我有一个单一URL的python脚本,我需要从url.txt为多个URL运行它,并在单个txt文件中获取输出。这是python脚本(缩小):从bs4导入urllib2 ...

回答 2 投票 0

确定网站是否是网上商店

我正在尝试确定网站列表中的网站是否是网络商店。似乎大多数网上商店都有:在他们的href中带有“cart”字样的标签An li标签分配给一个类......

回答 1 投票 1

Python请求模块在本地提供“请启用JavaScript以查看页面内容”但在AMI和Heroku服务器上工作

导入请求r = requests.get('https://my.cigna.com')print(r.text)当我在本地系统上运行上面的代码它给我下面的响应(检查最后一行)\ r \ nn

回答 1 投票 -2

网络刮刮谷歌航班价格

我正在努力学习使用python库BeautifulSoup,例如,我想在谷歌航班上刮掉一个航班的价格。所以我连接到谷歌航班,例如在这个链接,...

回答 3 投票 4

在Python中使用selenium进行Webscraping - 如果xtag值为空,则返回NaN

我有一个脚本循环几个具有相同布局的URL。我需要捕获某个字段的数据,该字段对于所有URL都具有相同的xpath。此信息存储在列表中,此处'...

回答 1 投票 2

有没有办法使用BeautifulSoup将数据从列表正确转换为CSV文件?

我正在尝试为网站创建一个webscraper。问题是收集的数据存储在列表中后,我无法正确地将其写入csv文件。我被困了多年......

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.