web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何使用scrapy重定向到结果页面并从那里刮掉?

我试图从kayak.com获取一些飞行数据,但是如果我输入结果页面的URL,它会将我重定向到机器人验证码页面。我尝试使用scrapy-user-agent和scrapy-fake-useragent-fix ...

回答 2 投票 0

无法访问亚马逊服务上的某些网站

描述我正在抓取网站:bjx.com并且所有代码都可以在本地运行。然后我将代码放在亚马逊服务上并运行,它失败了。我做了什么我想也许是网站......

回答 1 投票 -1

如何修复在vsCode中运行的python代码,被抓取的数据是中文乱码,而不是直接在python空闲

我写了一段网页抓取工具代码,用于抓取有道字典进行翻译。在vscode中运行时,输出是乱码。当直接在python空闲时运行时,输出是......

回答 1 投票 0

与另一方的连接丢失了 - 网络抓取

我想从https://www.gpw.pl/spolki中删除所有公司名称,而且我想按“Pokażwięcej...”(英文显示更多)来刮掉所有公司名称。我最初......

回答 1 投票 -1

scrapy shell作为用户界面显得不同,网站的部分不可报废

问题是我不能刮掉部分网站。如果我使用chrome devmode,我无法在xpath或selector中复制正确的位置。我会为其他标签或div获得正确的路径...

回答 1 投票 0

我可以在javaScript中使用从Node.js中抓取的内容吗?

我是javaScript新手并尝试使用node.js抓取网站。我可以检查控制台日志中的数据,但是想要在另一个javaScript文件中使用这些数据。我该如何获取数据?问题是 ...

回答 1 投票 2

scrapy python CrawlSpider没有爬行

从scrapy.spiders.crawl导入scrapy导入CrawlSpider,来自scrapy.linkextractors的规则导入LinkExtractor类MySpider(CrawlSpider):name ='genericSpider'allows_domains = ['...

回答 1 投票 0

从多个网页中提取数据 - Python

有人可以帮我从python中的多个网页中提取数据我想将客户名称,客户评论和时间从460页提取到CSV文件中。这是网址

回答 1 投票 -1

无法弄清楚为什么我的Scrapy脚本不起作用

import scrapy class TestSpider(scrapy.Spider):name ='test'start_urls = ['https://go.twitch.tv/directory'] def parse(self,response):对于response.css中的标题('body') ): 让 {'...

回答 1 投票 -2

获得关注链接scrapy网络爬虫的最佳方式

因此,我正在尝试编写一个蜘蛛继续单击网页上的下一个按钮,直到它不再可以(或者直到我添加一些逻辑使其停止)。下面的代码正确获取下一个链接...

回答 1 投票 0

无法在Scrapy项目中使用代理

我一直在试图抓取一个似乎已经识别并阻止我的IP并且正在抛出429太多请求响应的网站。我从这个链接安装了scrapy-proxies:https://github.com / ...

回答 1 投票 1

循环发帖请求Scrapy

我正在做一个scrapy蜘蛛,我必须发送一个帖子请求循环到下一页,问题是它只发送一个帖子请求。查询字符串更改每个元素“currentPage”...

回答 1 投票 0

Scrapyd Deploy错误:EOFError:读取一行时的EOF

我有2台,PC A没有错误,爬虫已成功部署,但在PC B上,错误发生。我的Scrapyd服务器正在运行但是当我尝试部署我的爬虫时,这些错误......

回答 1 投票 0

使用Nutch转储外国图像

我正在尝试使用Apache Nutch转储完整的网站内容。它适用于来自同一域的html页面和图像,但它不会转储来自其他网站的图像,例如如果我有一个域名网站...

回答 1 投票 0

Scrapy在预定的时间爬行蜘蛛

我想在预定的时间内多次抓蜘蛛。第一次爬网完成后,将确定下一个爬网时间。这是我的代码,但代码将被阻止在...

回答 1 投票 0

线程“main”java.lang.ClassNotFoundException错误中的异常

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5但是我得到了以下错误:线程“main”中的异常...

回答 1 投票 0

试图通过xpath和css元素获得相同的结果

我试图通过使用dom元素和xpath从网站获得相同的结果。所以我可以让这个爬虫动态更多的网站,所以我只需要填写网址和什么类型(xpath,domelement)。 ...

回答 1 投票 0

Scrapy:downloader / response_count vs response_received_count

我正在使用scrapy来抓取多个网站,我想分析抓取速度。最后转储的统计信息包含downloader / response_count值和response_received_count值。 ......

回答 1 投票 6

请求的错误返回仅返回HttpError,但没有其他错误应该存在

大家〜我学会使用scrapy.Request(),errback的参数。我按照官方演示编写我的代码,发现只有HttpError。 F:\ Python_Coding \ Scrapy \ error_handler> ...

回答 1 投票 0

如何在Java中输入URL的String?

我正在构建一个网络爬虫来获取学校项目的craigslist的搜索结果。我正在尝试为搜索查询提取用户输入并添加它以完成URL。这个功能不是必需的......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.