web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

向爬网程序提供数据库内容的最佳方法是什么

我的网站内容由用户提供的问题和评论定义,并且是动态的,并且在性质上不断增长。该数据库预计将托管数百万条记录。但是,这些内容是......

回答 1 投票 0

使用wget构建Web图形

我正在使用带-r(递归)选项的wget来从根开始爬行和下载所有页面。出于调试目的,我想输出哪个页面将我路由到另一个页面,例如:https:// ...

回答 1 投票 0

StormCrawler maven包装错误

我正在尝试设置并运行Storm Crawler并按照http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html博客文章进行操作。 ...的资源和配置集

回答 1 投票 2

Web爬虫递归BeautifulSoup

我试图递归抓取所有英文文章链接的维基百科网址。我想执行n的深度优先遍历,但由于某种原因,我的代码不会为每次传递重复。知道为什么吗?...

回答 1 投票 2

Apache Nutch 2.3.1检查点不起作用

我已经将apache Nutch 2.3.1配置为单节点集群(Hadoop 2.7.x和hbase 1.2.6)。我必须检查其检查点功能。根据我的信息,恢复在Fetch和...中可用

回答 1 投票 3

无法将StormCrawler连接到安全的Elasticsearch

我收到以下错误noNodeAvailableException [没有配置的节点可用:[{#transport#-1} {buKSP622TFWnQm_2-PxqQg} {xxxxxxxx} {10.240.49.79:2309}]] org.elasticsearch.client ... 。

回答 1 投票 0

如何在scrapy蜘蛛中使用url的站点地图?

我想创建一个基于网页的sitemap.xml来抓取网址的蜘蛛。所以我没有start_urls。我想确定使用sitemap.xml抓取哪些网址。我想添加一个......

回答 2 投票 0

如何使用scrapy规则从Wiki演员和电影页面爬行到仅演员和fimlography链接中的链接

我最近开始使用python和scrapy。我一直在尝试使用scrapy从电影或演员维基页面开始,保存名称和演员或电影摄影并遍历链接...

回答 2 投票 0

Scrapy抓取所有站点地图链接

我想抓取固定网站的sitemap.xml中存在的所有链接。我遇到过Scrapy的SitemapSpider。到目前为止,我已经提取了站点地图中的所有网址。现在我想爬过每个......

回答 2 投票 0

抓取javascript生成的网页

将javascript内容转换为HTML以将其用于脚本时,我遇到了问题。我使用了多种方法作为phantomjs或python QT库,他们都很好地获得了大部分内容,但问题是......

回答 2 投票 0

Scrapy不在OBD网站上工作

我正在尝试在oneblockdown.it上使用scrapy-spider来获取最新产品的所有产品并将它们存储到数据库中。我的显示器中的一些站点正在工作,但像OBD这样的人不是......

回答 2 投票 0

如何修改ESCrawlTopology以便它在本地而不是远程运行? 'NoNodeAvailableException'异常

我本质上想要复制这个命令:storm jar target / crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux es-crawler.flux --local --sleep 30000但是把它变成一个可执行类(...

回答 1 投票 0

urllib2没有返回HTML

试图通过第三方网站进行蜘蛛/爬行,但我似乎遇到了障碍:urlopen'ing一个网站得到了回应,但阅读和打印HTML似乎告诉我,我什么都没得到......

回答 3 投票 0

Google Places API:是否有年度限制请求?

我创建了一个Python抓取工具,以便废弃Google Places API,我将其称为Fantail,并且因为2周后不再有效:它总是返回OVER_QUERY_LIMIT。一开始我教过那里......

回答 1 投票 -1

服务不可用服务器当前正在进行维护。网站管理员:请联系支持。错误503

我一直在使用Hostgator托管一段时间,但突然Hostgator开始关闭一些网站“服务不可用”,这是因为CPU资源很高,所以Hostgator为我提供了一些......

回答 1 投票 0

解析BeautifulSoup,错误消息TypeError:强制转换为Unicode:需要字符串或缓冲区,找到NoneType

所以我正试图抓取一个亚马逊页面的数据,当我试图解析卖家所在的位置时,我收到了一个错误。这是我的代码:#getting the html request = urllib2.Request('http:// www ....

回答 1 投票 3

在Laravel项目中放置Crawler脚本的位置?

我创建了一个非常简单的PHP爬虫,我想在Laravel项目中实现它。我不知道该把它放在哪里..我想启动脚本并在应用程序启动时运行它。 ...

回答 1 投票 0

如何以编程方式从谷歌播放下载Android应用程序?

我想获取一大堆Android应用程序用于分析目的,我需要apk文件。有谁知道如何使用程序(比如爬虫)从Google Play下载Android应用程序? ...

回答 2 投票 -1

如何在网站上找到sitemap.xml路径?

如何找到网站的sitemap.xml文件?例如转到stackoverflow / sitemap.xml会得到404.在stackoverflow / robots.txt中写入以下内容:“这在技术上是无效的,因为...

回答 5 投票 38

Xpath - 包含文本值的表的多个嵌套div

我在网站上遇到了复杂的html结构,我想从中提取文本信息。网站有以下结构:

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.