web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

给出网站列表,在Python中搜索和返回信息

我创建了一个函数,它返回给定特定公司名称的URL列表。我想知道搜索这个网址列表,并找到有关该公司是否归其他人所有的信息......

回答 3 投票 0

从多个链接构建一个表

我需要从一个网站中提取数据,我已经提取了托管数据的网址列表,我可以提取数据,但我无法以表格形式提取数据。我试过多次......

回答 1 投票 1

从Excel公式进行Google搜索并将结果放入单元格中

After After(地址已添加)我有一个包含场地名称的电子表格,我想使用Google表格中的公式在下一个单元格中添加这些场地的地址。我想要做 ...

回答 1 投票 0

回答 1 投票 -1

使用python在没有API的情况下刮擦wunderground

我在数据抓取方面不是很有经验,所以这里的问题对某些人来说可能是显而易见的。我想要的是从wunderground.com获取历史每日天气数据,而无需付费...

回答 2 投票 1

宜家com产品刮刀

我想制作一个简单的ikea com产品页面刮刀。这是我有函数curl($ url){$ ch = curl_init(); curl_setopt($ ch,CURLOPT_URL,$ url); curl_setopt($ ch,...

回答 1 投票 0

为什么我的python selenium scraper错过了文字?

我正在做一个简单的刮刀来从steamDB中提取蒸汽销售信息(https://steamdb.info/sales/?min_discount=50&min_rating=70)。这是我的代码:来自selenium import webdriver driver = ...

回答 2 投票 0

BeautifulSoup“AttributeError:'NoneType'对象没有属性'text'”

我用bs4在网上搜索天气搜索的谷歌,当有一个标签时,Python找不到标签。我怎么解决这个问题?我试着用班级和......找到这个。

回答 2 投票 0

使用'scrapy'抓取网页抓取0页和项目

我从一个网站设置代理抓取器,但我什么也没得到。从scrapy.item导入scrapy导入字段,来自scrapy.spiders的项目导入CrawlSpider,来自scrapy.linkextractors的规则导入...

回答 1 投票 1

无法从特定页面中删除main_container

所以我试图从这个网址中删除。你可以检查它有很多细节,这些细节在一个div下,类为main_container。但每当我试图刮掉它时,它都没有给出那个部分......

回答 2 投票 1

从网站提取的值中生成.xls文件

我是Python编程的绝对初学者,也是Web Scraping。我试图抓一个网站用于练习目的。我使用了BeautifulSoup和Requests模块。代码给出了......

回答 1 投票 1

如何在selenium python中通过CSS Selector找到确切的类?

我想让所有类名为=“panel-content”,所以我这样做了:driver.find_elements_by_css_selector(“div.panel-content”)但它也选择了名为=“accordion-table panel -...的类。

回答 2 投票 0

selenium webdriver - 没有得到所有src图像由xpath为amazon.co.uk [关闭]

我正在尝试获取产品图像的所有链接 - https://www.amazon.co.uk/Autoglym-AG-035001-Interior-Shampoo/dp/B00114WOBC/ref=sr_1_1?ie=UTF8&qid= 1553519250&SR = 8-1 ...

回答 3 投票 -2

如何编写csv并插入scrape数据

我正在为我的研究设计报废项目,但我坚持在csv中写废料数据。请帮帮我吗?我已成功废弃数据,但我想将其存储在csv下面,这是我...

回答 2 投票 -1

Nodejs:我想从nba.com/stats中删除html,但是我没有得到整个html的请求

我正在尝试使用nodejs废弃https://stats.nba.com/players/traditional/?sort=NBA_FANTASY_PTS&dir=-1&Season=2018-19&SeasonType=Regular%20Season&LastNGames=3但我没有得到相同的...

回答 1 投票 0

什么是正确的Scrapy XPath 错误放置的元素 标签?

我正在设置我的第一个Scrapy Spider,我在使用xpath提取某些元素时遇到了一些困难。我的目标是http://www.cbooo.cn/m/641515(类似于票房的中文网站......

回答 2 投票 0

我应该使用哪个CSS选择器来访问网站图表上的数字(python)

我试图从这个页面上的图表中解析一些数字(https://www.zoopla.co.uk/local-info/?outcode=cm15&incode=9bq)该图表中有5个选项卡。我对第5个标签感兴趣(...

回答 1 投票 0

如何使用Scrapy抓取整个网站?

我无法抓取整个网站,Scrapy只是在地面爬行,我想爬得更深。谷歌搜索过去5-6小时,没有任何帮助。我的代码如下:来自scrapy.contrib.spiders import ...

回答 2 投票 11

pandas read_html - 找不到表格

我试图看看我是否可以从WU.com读取数据表,但是我发现没有找到表的类型错误。 (网上报废的第一个计时器也在这里)还有一个人非常...

回答 1 投票 0

我的代码不想输出提取的数据

我想从网站(德语黄页)中提取多个链接,但是当我点击运行按钮时,我的代码什么都不做。我的刮刀没有反应,也没有给出错误警告。我该如何解决? ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.