web-crawler 相关问题

Web爬虫（也称为Web爬虫）是一种以有条不紊，自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁，自动索引器，僵尸程序，Web蜘蛛，Web机器人，或者 - 尤其是在FOAF社区中 - Web scutters。

如何使用Scrapy制作Twitter Crawler？ [关闭]

我曾尝试使用Scrapy从Pinterest这样的网站中抓取数据，这些网站不需要登录会话进行数据抓取，但是如何使用Scrapy来抓取和抓取Twitter，因为...

twitter scrapy web-crawler

回答 2 投票 1

Ruby：Net :: HTTP和重定向

我正在学习http://ruby.bastardsbook.com/chapters/web-crawling/上的教程，并想对一下处理重定向一点澄清，因为作者使用的国防部网站......

ruby redirect web-scraping web-crawler http-status-code-301

回答 1 投票 1

如何在python中手动管理内存？

当我同时运行我的程序（网络爬虫）时，它通过我的系统需要不同数量的内存或内存，我还测试了其他网络爬虫，我的网络爬虫是ram的两倍...

python python-3.x python-2.7 web-crawler

回答 3 投票 1

检查网站每个链接的最佳方法是什么？

我想创建一个跟踪站点的每个链接的爬虫，并检查URL以查看它是否有效。现在我的代码使用url.openStream（）打开URL。那么创建爬虫的最佳方法是什么？

java html web-crawler

回答 2 投票 2

R数据抓取/抓取动态/多个URL

我试图通过以下网址获得瑞士联邦最高法院的所有法令：https：//www.bger.ch/ext/eurospider/live/de/php/aza/http/index.php?lang=de&type=simple_query&query_words= ＆...

r web-scraping web-crawler rvest rcrawler

回答 1 投票 0

如何将我的整个输出从iPython笔记本保存为.txt文件？

我编写了一个程序来从ipython笔记本中的twitter抓取数据。该程序提供了大量的数据流作为输出，我想将此输出保存在.txt文件中。我该怎么做？当我打开...

python api web-crawler ipython

回答 1 投票 0

使用BeautifulSoup解析HTML但在创建BeatuifulSoup对象时遇到困难

html = urlopen（url）bs = BeautifulSoup（html.read（），'html5lib'）运行几次后，进程陷入BeautifulSoup（html.read（），'html5lib'），我试图改变HTML ...

python html beautifulsoup web-crawler

回答 1 投票 0

如何在Nutchx2上使用轮数

我也有同样的问题。我只使用此命令进行整个过程：crawl urls / ucuzcumSeed.txt ucuzcum http：// localhost：8983 / solr / ucuzcum / 10 crawl [ ]＆...

solr web-crawler nutch

回答 1 投票 0

在Nutch中每个站点爬一定深度

我正在尝试使用Nutch V1.12抓取大量网站，而我抓取网站没有问题我无法控制爬网，就像我想要的那样。问题主要在于没有......

web-crawler nutch depth

回答 2 投票 0

无法从网页上抓取类别标题

我在python中编写了一个scraper来从网页上获取不同的类别名称，但它无法从该页面获取任何内容。我真的很困惑，不知道我要去哪里......

python python-3.x web-scraping web-crawler

回答 2 投票 4

pcntl_fork（）函数

因为抓取网页可能会耗费大量时间，所以我想让pcntl_fork（）帮助我创建多个子节点来分割我的代码。主 - 抓取域名儿童 - 收到链接时...

php web-crawler pcntl

回答 3 投票 2

Python：Scrapy和Reddit

我正在为聊天机器人实现数据管道。我正在使用scrapy抓取特定的subreddits以收集提交ID（不可能使用praw - Python Reddit API Wrapper）。继续我正在使用praw ...

python scrapy web-crawler reddit

回答 1 投票 0

基于Hadoop MapReduce的Web Java Crawler

我想使用MapReduce架构实现基于Hadoop Framework的Java爬虫，并在HBase中插入内容。我尝试结合这两个教程：基本网络爬虫示例MapReduce ...

java hadoop mapreduce web-crawler

回答 1 投票 0

Python Selenium ChromeDriver不等待页面加载

我有一组Web scraper，使用Selenium ChromeDriver在Python 3.6中运行。所有这些都完美无缺。本周我将Selenium更新为v2.8，将ChromeDriver更新为v2.34。马上......

python selenium web-crawler selenium-chromedriver

回答 1 投票 1

网络爬虫。错误LAttributeError：'NoneType'对象没有属性'tr'

我的代码在这一行上给出了一个错误：tr_tag = soup.table.tr。错误消息：非类型对象没有属性'tr'。我正在imbd上编写一个Web爬虫来使用Python 2.7获取数据。你可以帮帮我吗 ...

python web-crawler

回答 1 投票 0

使用javascript呈现的内容从网页抓取数据

我是抓取数据的新手。我想从这个站点抓取数据：[http://kbbi.web.id/] [我想通过.csv文件的输入抓取数据，并使抓取数据像上面的图片一样工作...

python python-3.x web-crawler

回答 1 投票 -2

如何使这个爬虫更有效[关闭]

我构建了这个网络爬虫。 https://github.com/shoutweb/WebsiteCrawlerEmailExtractor //正则表达式函数扫描单个页面的电子邮件函数get_emails_from_webpage（$ url）...

php performance web-scraping web-crawler

回答 1 投票 -5

scrapy仅遵循一个深度的外部链接

想象一下，我正在爬行foo.com。 foo.com有几个内部链接，它有一些外部链接，如：foo.com/hello foo.com/contact bar.com holla.com我想scrapy爬行所有...

python scrapy web-crawler

回答 3 投票 2

以HTML格式获取数据模式

我的目标是编写一些R代码，这些代码允许我从www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants = ...进行网页抓取。

html r path web-crawler

回答 1 投票 0

BeautifulSoup验证“title”td以提取多个表的值

我正在尝试抓取一个没有标准化输出且没有任何样式表行的样式/ id标记的旧网站，它们只是显示如下：

python html beautifulsoup web-crawler

回答 1 投票 0

web-crawler 相关问题

最新问题