web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

种子网址爬行整个Youtube

我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到任何站点地图或......

回答 1 投票 1

如何查找特定URL下的所有网站。

我真的想知道如何在某个URL下查找所有网站。例如,我的网址为https:// ab / c,我想查找其下的所有网站,例如https:// ab / c / d和https:// ab / c / d / e .. 。

回答 3 投票 0

Scrapy:如何通过AJAX调用刮取第二个HTML页面

我是scrapy和html的新手,我正在尝试创建一个简单的蜘蛛来刮取https://www.mobiel.nl网站。我设法访问了移动电话页面,例如HTTPS://www.mobiel.nl / ...

回答 1 投票 0

如何将Python抓取的Bing网页内容转换为人类可读的内容?

我正在使用python抓取Bing网页搜索页面。我发现收到的原始内容看起来像字节类型,但尝试解压缩它失败了。有人知道什么样的数据......

回答 1 投票 0

为什么我不能用python请求下载midi文件?

我正在尝试使用python和请求库下载一系列古典音乐midi文件。不幸的是,我似乎无法自己下载midi文件。我唯一的......

回答 2 投票 0

制作scrapy蜘蛛跟随给定起始URL的链接

我正在尝试使用scrapy构建一个简单的蜘蛛来导航从给定的start_urls开始并在页面内部链接,刮掉两个项目。目标:这是我的首页。在这里你看到一个...的列表

回答 2 投票 1

Facebook使用cURL和PHP登录

我想用curl到达facebook登录页面。我的目的是登录facebook,然后做一些scaping。由于最新的限制,我没有使用facebook API ...我需要抓...

回答 1 投票 -1

使用beautifulSoup时html内容会发生变化

我试图从一个html块中提取src的属性值,html块是:

回答 1 投票 0

Python 3多处理 - 如何执行单个任务

非常感谢提前!任务描述:我想使用Python来收集免费的https代理服务器信息并进行测试。代码需要几分钟才能运行(大约100个代理服务器......

回答 2 投票 0

python - unicode编码冲突

更新 - 我试图包括crontab作业的完整路径,但同样的问题再次发生...我只对这篇包含拉丁字符“Moët”的特定文章有疑问我是新来的......

回答 1 投票 0

使用HtmlUnit 2.18进行抓取网页时出错

我有以下代码:WebClient webClient = new WebClient(BrowserVersion.getDefault()); HtmlPage页面;名单 anchor = new ArrayList ();试试{System.out ....

回答 2 投票 0

Web爬虫循环

我在网络爬虫中编写了以下循环。它会在几秒钟后耗尽。我无法弄清楚为什么。 def crawlweb(seed):crawled = [] tocrawl = [seed] page = tocrawl [0]而...

回答 1 投票 0

Python机械化连接失败的问题

我正在运行一个爬虫,它在MAC和Ubuntu系统中运行良好。当我在Windows中运行它时,它会跟踪堆栈跟踪:文件“build \ bdist.win32 \ egg \ mechanize \ _mechanize.py”,第203行,...

回答 2 投票 3

如何将代理添加到BeautifulSoup爬虫

这些是python crawler中的定义:from __future__ import from_statement from eventlet.green import urllib2 import eventlet import re import urlparse from bs4 import BeautifulSoup,...

回答 2 投票 4

如何在以伪分布式模式安装的Hadoop中运行Nutch

我在我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我有Hadoop ......

回答 1 投票 0

Web Crawler go go不同输出相同的代码

我一直在努力做所有的go教程,我被困在网络爬虫。我以为我完成了它,但输出不一致,我没有足够的并发经验来计算......

回答 1 投票 1

Python中的分布式计算 - 网络爬虫

我的目标是构建一个分布式爬虫,一次处理多个网站,也可以处理多个查询。为此,我使用像'...这样的标准软件包在Python中构建了一个Web爬虫。

回答 1 投票 1

将内容长度存储为字段值(也称为索引文档的元数据)

我们希望将抓取页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers = true但我不相信服务器的http-header。所以我们改变了......

回答 1 投票 1

scrapy不会抓取所有内容

我想抓取一个网址,网址为以下格式:www.test.com/category1/123456.html(页面)www.test.com/category1/123457.html .. www.test.com/category2 www.test .com / category3 ...这里是......

回答 1 投票 0

获取网页的HTML代码

我正在尝试使用它的网址获取网页的HTML代码。我写了下面的代码,它可以工作,但比较结果字符串它与我在使用谷歌浏览器时看到的代码不符...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.