web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用Scrapy抓取整个网站?

我无法抓取整个网站,Scrapy只是在地面爬行,我想爬得更深。谷歌搜索过去5-6小时,没有任何帮助。我的代码如下:来自scrapy.contrib.spiders import ...

回答 2 投票 11

pandas read_html - 找不到表格

我试图看看我是否可以从WU.com读取数据表,但是我发现没有找到表的类型错误。 (网上报废的第一个计时器也在这里)还有一个人非常...

回答 1 投票 0

我的代码不想输出提取的数据

我想从网站(德语黄页)中提取多个链接,但是当我点击运行按钮时,我的代码什么都不做。我的刮刀没有反应,也没有给出错误警告。我该如何解决? ...

回答 2 投票 0

如何从Scrapy网站获取所有纯文本?

在呈现HTML之后,我希望从网站上看到所有文本。我在Python中使用Scrapy框架。使用xpath('// body // text()')我能够得到它,但是使用HTML ...

回答 3 投票 14

无法使用Python从字符串中删除双引号

我试图获得价格的网址是https://www.websupplies.gr/razer-blackwidow-chroma-overwatch-edition-us-pliktrologio-gaming-pliktrologio,我试图删除双引号...

回答 1 投票 -2

来自remax.com的网络抓取

我试图从Remax.com获取一些数据,例如大量或平方英尺的房产信息。虽然我收到以下错误:------------------------------------------ --------------...

回答 1 投票 2

用rjson在R中刮取NBA数据

我花了很长时间用R来试图抓取NBA数据,到目前为止我通过反复试验做了一点,但最后我发现了这个文档。前段时间我遇到了一些问题......

回答 1 投票 12

使用MATLAB从Openweathermap.org刮取数据

目前我正在使用MATLAB从API中获取最大温度,最小温度,压力和湿度的openweathermap.org数据。我的问题是无论我在url中指定了什么lat和lon,网址都是......

回答 1 投票 0

使用美丽的汤筛网刮

我试图从网站上提取一些信息。我需要点击“a”标签内的链接。我能够找到标签。但是当我试图点击它时。我收到一个名为'...的错误

回答 1 投票 0

使用requests.get(url)时没有提供架构和其他错误

我学习了python for webscraping。该程序从巴西的制药网站http://consultaremedios.com.br/中提取信息我使用的是Ubuntu和MacOS。这是我的代码:从bs4导入请求...

回答 1 投票 0

拉错了链接。 Beautifulsoup,蟒蛇

这是我在这里的第一篇文章所以请耐心等待。我正试图从我当地的新闻网站上删除所有具有特定单词的链接(城市名称 - 格但斯克)。问题是,我......

回答 2 投票 0

抓取,上传和通知

我正在创建一个应用程序,一旦外部网站上有新项目,就会向用户发送通知当前此过程是手动的,我自己检查更新并发送...

回答 1 投票 1

连接到websocket,标题必须同时是字符串和字典?

我试图通过自己连接到webscoket来刮取具有websocket连接的网页。这是我的代码:来自websocket import create_connection import json headers = json.dumps({'...

回答 1 投票 -2

在VBA中对HTTP发布请求的空响应

我正在尝试在VBA中创建一个HTTP post请求,但得到一个空响应。这是我的代码:Sub User()On Error Resume Next Dim HTTPreq As WinHttpRequest Set HTTPreq = New ...

回答 1 投票 2

无法测量列表中每个项目的频率

我在python中编写了一个脚本来从网页中删除不同项目的名称。我的脚本可以无错误地完成。有些项目不止一次出现。我想刮掉每件物品的数量'......

回答 1 投票 1

如何在Python中获取首页调用的api?

一切都在标题中。我使用requests.get(网站,headers = headers,params = params,cookies = cookies)来获取网站的内容。网站调用AP I来获取数据。我想要 ...

回答 1 投票 0

动态JS在抓取网站时生成代码

我是一个刮痧的新手。我正试图通过按钮立即购买该网站的价值。我尝试过的选项是:从PyQt4.QtGui导入来自PyQt4.QtCore的QApplication从PyQt4导入QUrl ....

回答 1 投票 3

Python和Beautifulsoup 4 - 无法过滤类?

我正试图从这个网址上刮掉鞋码:http://www.jimmyjazz.com/mens/footwear/jordan-retro-13--atmosphere-grey-/414571-016?color=Grey我在尝试什么要做的只是获得...的尺寸

回答 2 投票 2

网页搜集谷歌域名

我试图从前100个结果中获取域名列表:例如:abc.com/xxxx/dddd域应为:abc.com我使用以下代码:从bs4 import导入时间...

回答 1 投票 0

我试图抓住的网站阻止了我,因为我正在使用自动化工具,我该如何解决这个问题呢?

当我试图用木偶戏刮掉某些页面时,我被chegg.com阻止了。有没有办法解决这个问题?也许在铬中使用隐身浏览器?当我尝试......时会出错

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.