web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

阻止网络抓取工具[重复]

网站可以通过哪些方式阻止网络爬虫?如何确定您的服务器是否被机器人访问?

回答 6 投票 0

任何好的 C# 开源网络爬虫框架 [已关闭]

我正在构建一个购物比较引擎,我需要构建一个爬行引擎来执行日常数据收集过程。 我决定用 C# 构建爬虫。我有很多不好的经历...

回答 6 投票 0

检测用户时区后重新加载页面。会有SEO惩罚吗?

我正在使用PHP创建一个网站,它需要根据用户的时区在页面上显示时间。 经过一番搜索,我找不到服务器端的方法来做到这一点,所有的解决方案......

回答 2 投票 0

AWS 爬网程序为分区列创建 Null 值

我在 s3 中有一些国家/地区级别的分区数据,爬虫正在爬行此根文件夹并创建一个表。国家/地区代码不存在空值。但是当看雅典娜时,...

回答 1 投票 0

如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作?

我将 robots.txt 文件添加到本地 Web 服务器的根目录中。 服务器上的 robots.txt 文件的 url 是 http://localhost/myserver/robots.txt。 robots.txt文件的内容是 ...

回答 2 投票 0

Python 请求帖子不会被重定向

当我使用 Chrome 在此网站上发布:“http://xh.5156edu.com/index.php”时,我会被重定向到一个新页面。但是,当我使用 python request 模块来发帖时,如下所示: r =

回答 2 投票 0

如何获取scrapyrt的POST元数据?

在scrapyrt的POST文档中,我们可以传递这样的JSON请求,但是如何访问start_requests中的类别和项目等元数据? { “要求”: { “元”:{ ...

回答 2 投票 0

傀儡师等待列表出现

我正在开发的网站有一个按钮。 当我使用 puppeteer 单击按钮时,它会在 ul 元素上创建 10 个以上的列表。 第一次该网站已经在 ul 元素上有 10 个列表,每当 cli...

回答 1 投票 0

如何从收到的响应中抓取html代码?

我正在尝试使用 scrapy 和splash 抓取网站。 我想从图像中出现的响应中抓取特定的 html 代码。 这是带有标题的响应: 这是重新...

回答 1 投票 0

TypeError:“str”对象无法使用 driver.current_url() 调用(Python 3.6)(Selenium)

我的代码: https://pastebin.com/WKHZwAib 进口硒 从 selenium 导入 webdriver 作为 web url = 'https://www.wta.org/go-outside/hikes/hike_search?排序=&评级=0&里程:浮动:列表=0....

回答 2 投票 0

通过电子表格导入 JSOUP 的 URL 以进行抓取

我终于让 IntelliJ 开始工作了。我正在使用下面的代码。它工作完美。我需要它一遍又一遍地循环,并从电子表格中提取链接,以便一遍又一遍地查找不同商品的价格...

回答 1 投票 0

如何使用 Selenium 和 Java 加载和收集所有评论

我有一个 Java 应用程序,它使用 Selenium Web 驱动程序从 Google Play 商店应用程序中抓取/抓取信息。我有大约 30 个来自应用程序的链接,但我在收集所有链接时遇到问题

回答 1 投票 0

爬行蜘蛛无法进入下一页

我正在 http://www.ulta.com/makeup-eyes-eyebrows?N=26yi 上抓取所有产品详细信息。我的规则复制如下。我只从第一页获取数据,不会继续到下一页。 规则=(R...

回答 1 投票 0

Beautifulsoup 中的查找函数在第一个列表中返回 None

我现在练习用Beautifulsoup4解析HTML。 我在使用查找功能时遇到问题。 这是我的代码。 soup1 = BeautifulSoup(a,"html.parser") table1 = soup1.find('div', {'id':'auction_conta...

回答 1 投票 0

Python:网页抓取特定关键字

我的问题不应该太难回答,我遇到的问题是我不知道如何抓取特定关键字的网站..我对Python很陌生..所以我知道我需要添加一些更多详细信息...

回答 2 投票 0

X 路径 Python 错误 - 'list' 对象没有属性 'xpath'

我正在尝试做一个网络爬行项目,并且我不断收到一个名为“'list'对象没有属性'xpath'”/的错误代码 这是到目前为止的代码: 导入请求 从 lxml 导入 html 我...

回答 4 投票 0

使用 PHP scraper 获取所有 Play 商店搜索结果(不仅仅是前 20 名)

总结: 我想获取所有 Play 商店搜索结果,问题是,滚动后显示的应用程序未在 PHP file_get_content() 中显示。 细节: 我正在尝试制作一个基于 php 的游戏...

回答 1 投票 0

如何使用网络爬虫/抓取器登录?

我想创建一个程序来抓取我的帐户的多个网站的阅读列表,并将它们添加到我的 Safari 阅读列表中。但是,我不能只使用普通链接来抓取,因为它需要

回答 1 投票 0

我无法使用nodejs从网站获取url

我希望使用以下代码从该网站抓取网址: var request = require("请求"); Cheerio = require("cheerio"); 网址=[]; 请求(“http://news.sabay.com.kh/topics/sport”,功能...

回答 1 投票 0

为 Http 连接池设置每个路由的最大连接数

我正在编写一个爬虫来爬取一些论坛内容,并且我所有的HTTP连接都使用Apache Http Client。 正如官方文档所建议的,我使用单个 Http 客户端来实现单个功能...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.