web-crawler 相关问题

Web爬虫（也称为Web爬虫）是一种以有条不紊，自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁，自动索引器，僵尸程序，Web蜘蛛，Web机器人，或者 - 尤其是在FOAF社区中 - Web scutters。

如何使用scrapy重定向到结果页面并从那里刮掉？

我试图从kayak.com获取一些飞行数据，但是如果我输入结果页面的URL，它会将我重定向到机器人验证码页面。我尝试使用scrapy-user-agent和scrapy-fake-useragent-fix ...

python scrapy web-crawler url-redirection

回答 2 投票 0

无法访问亚马逊服务上的某些网站

描述我正在抓取网站：bjx.com并且所有代码都可以在本地运行。然后我将代码放在亚马逊服务上并运行，它失败了。我做了什么我想也许是网站......

linux curl web-crawler block wget

回答 1 投票 -1

如何修复在vsCode中运行的python代码，被抓取的数据是中文乱码，而不是直接在python空闲

我写了一段网页抓取工具代码，用于抓取有道字典进行翻译。在vscode中运行时，输出是乱码。当直接在python空闲时运行时，输出是......

python visual-studio-code web-crawler output

回答 1 投票 0

与另一方的连接丢失了 - 网络抓取

我想从https://www.gpw.pl/spolki中删除所有公司名称，而且我想按“Pokażwięcej...”（英文显示更多）来刮掉所有公司名称。我最初......

python web-scraping scrapy web-crawler

回答 1 投票 -1

scrapy shell作为用户界面显得不同，网站的部分不可报废

问题是我不能刮掉部分网站。如果我使用chrome devmode，我无法在xpath或selector中复制正确的位置。我会为其他标签或div获得正确的路径...

python beautifulsoup scrapy web-crawler scrapy-shell

回答 1 投票 0

我可以在javaScript中使用从Node.js中抓取的内容吗？

我是javaScript新手并尝试使用node.js抓取网站。我可以检查控制台日志中的数据，但是想要在另一个javaScript文件中使用这些数据。我该如何获取数据？问题是 ...

javascript node.js json web-crawler

回答 1 投票 2

scrapy python CrawlSpider没有爬行

从scrapy.spiders.crawl导入scrapy导入CrawlSpider，来自scrapy.linkextractors的规则导入LinkExtractor类MySpider（CrawlSpider）：name ='genericSpider'allows_domains = ['...

python scrapy web-crawler

回答 1 投票 0

从多个网页中提取数据 - Python

有人可以帮我从python中的多个网页中提取数据我想将客户名称，客户评论和时间从460页提取到CSV文件中。这是网址

python-3.x beautifulsoup scrapy web-crawler

回答 1 投票 -1

无法弄清楚为什么我的Scrapy脚本不起作用

import scrapy class TestSpider（scrapy.Spider）：name ='test'start_urls = ['https://go.twitch.tv/directory'] def parse（self，response）：对于response.css中的标题（'body'））：让 {'...

python web-scraping scrapy web-crawler scrapy-spider

回答 1 投票 -2

获得关注链接scrapy网络爬虫的最佳方式

因此，我正在尝试编写一个蜘蛛继续单击网页上的下一个按钮，直到它不再可以（或者直到我添加一些逻辑使其停止）。下面的代码正确获取下一个链接...

python scrapy web-crawler

回答 1 投票 0

无法在Scrapy项目中使用代理

我一直在试图抓取一个似乎已经识别并阻止我的IP并且正在抛出429太多请求响应的网站。我从这个链接安装了scrapy-proxies：https：//github.com / ...

python web-scraping proxy scrapy web-crawler

回答 1 投票 1

循环发帖请求Scrapy

我正在做一个scrapy蜘蛛，我必须发送一个帖子请求循环到下一页，问题是它只发送一个帖子请求。查询字符串更改每个元素“currentPage”...

python scrapy web-crawler scrapy-spider

回答 1 投票 0

Scrapyd Deploy错误：EOFError：读取一行时的EOF

我有2台，PC A没有错误，爬虫已成功部署，但在PC B上，错误发生。我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时，这些错误......

python ubuntu scrapy web-crawler scrapyd

回答 1 投票 0

使用Nutch转储外国图像

我正在尝试使用Apache Nutch转储完整的网站内容。它适用于来自同一域的html页面和图像，但它不会转储来自其他网站的图像，例如如果我有一个域名网站...

web-crawler nutch

回答 1 投票 0

Scrapy在预定的时间爬行蜘蛛

我想在预定的时间内多次抓蜘蛛。第一次爬网完成后，将确定下一个爬网时间。这是我的代码，但代码将被阻止在...

python scrapy web-crawler

回答 1 投票 0

线程“main”java.lang.ClassNotFoundException错误中的异常

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5但是我得到了以下错误：线程“main”中的异常...

apache web-crawler nutch

回答 1 投票 0

试图通过xpath和css元素获得相同的结果

我试图通过使用dom元素和xpath从网站获得相同的结果。所以我可以让这个爬虫动态更多的网站，所以我只需要填写网址和什么类型（xpath，domelement）。 ...

php web-crawler goutte

回答 1 投票 0

Scrapy：downloader / response_count vs response_received_count

我正在使用scrapy来抓取多个网站，我想分析抓取速度。最后转储的统计信息包含downloader / response_count值和response_received_count值。 ......

python web-scraping scrapy web-crawler

回答 1 投票 6

请求的错误返回仅返回HttpError，但没有其他错误应该存在

大家〜我学会使用scrapy.Request（），errback的参数。我按照官方演示编写我的代码，发现只有HttpError。 F：\ Python_Coding \ Scrapy \ error_handler> ...