web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

该网站如何检测到我的硒蜘蛛,以及如何使其通过?

环境:Selenium + ChromeDriver我正在使用Selenium在网站上获取一些数据,这些数据只能通过Ajex请求来获取。但是得到了诸如“验证失败,请刷新...

回答 1 投票 0

我是否可以出于研究目的刮取StackOverflow职位信息?

我正在考虑为我的研究刮取StackoOverflow的职位信息。具体来说,我将构建一个网络,在该网络上将节点“行业和技术”标记到职位发布中。这个...

回答 1 投票 0

Scrapy spider在检查所有链接之前会先完成

我正在使用一种Scrapy解决方案来抓取网站列表以查找电子邮件(基于https://towardsdatascience.com/web-scraping-to-extract-contact-information-part-1-mailing-lists- 854e8a8844d2)。 ...

回答 1 投票 1

每主机使用HttpClient和Polly发送并行请求,以正常处理429个响应

简介:我正在构建一个单节点Web搜寻器,以仅验证.NET Core控制台应用程序中的URL是否正确200。我在向其发送请求的不同主机上有一组URL ...

回答 2 投票 3

循环内的requests.get()问题。 “未找到连接适配器”

因此,我尝试使用其JSON版本抓取多个页面。当我为单个URL运行代码时(如所附代码的第一部分),但是,当我尝试...

回答 1 投票 0

单击没有类,标识或带有Selenium的链接文本的href按钮

我正在爬网网页:www.ogimet.com,我想单击href按钮。这是html代码:Sondeos por territorios我如何单击...

回答 2 投票 0

如何使用选择器抓取网页?

我正在爬网页:ogimet.com,这是我的代码:从urllib.request导入时间从bs4导入urlopen从硒导入webdriver导入BeautifulSoup#此路径在您的...上可能不同...

回答 1 投票 0

我如何抓取已准备好的网址列表

[我将使用python爬行,将URL信息另存为csv或txt,我想在将代码加载到页面时逐页爬行,我该如何从bs4 import BeautifulSoup导入urllib.request ...

回答 1 投票 0

我们可以从LinkPresentation框架的LPLinkView中提取图像吗?

我想在我的应用程序中显示一个丰富的链接,并将这些数据发送到我的服务器。我需要访问LPLinkView视图内的图像。如何访问其中的参数? (例如:图片,...

回答 1 投票 1

Python3,Bio Entrez,PubMed:是否可以获取一篇文章被引用的次数?

我正在使用Entrez来搜索Pubmed上的文章。是否可以使用Entrez来确定使用搜索参数找到的每篇文章的引用次数?如果没有,是否存在...

回答 1 投票 0

无法使用BeautifulSoup获得文章的网址

我正在使用BeautifulSoup从此页面获取文章的网址:https://www.usnews.com/search?q=China+COVID-19&gsc.tab=0&gsc.q=China+COVID-19&gsc.page = 1#gsc.tab = 0&gsc.q = China%...

回答 2 投票 1

从python中的html表中抓取数据

我是Web爬网的初学者,我需要帮助从表中获取值。这是网站,这是到目前为止的代码。但是它不能正常工作,作为来自bs4 import的rq的导入请求...

回答 2 投票 0

如何使用“请求”?

我是韩国人,刚开始学习Python。首先,我为我的英语道歉。我了解了如何在YouTube上使用beautifulSoup。在某些站点上,爬网是成功的。但是,我发现...

回答 1 投票 1

大量网站获取相同信息

我已经进行了无数小时的研究,但是我找不到适合于从URL列表中抓取所有网站的任务的内容。这是我编写的用于查找和获取我的URL的代码。

回答 1 投票 0


在c#中使用Selenium时避免加载图像和其他资源,例如css

早上好。我正在开发一个蜘蛛来审查一些网页。我不能不使用硒。但是Selenium的问题在于它消耗大量资源并且运行缓慢。我正在寻找...

回答 1 投票 0

如何在PYSPIDER中设置同时请求数

我正在尝试使用Pyspider搜寻器扫描我的网站,我希望每2秒发出一个请求,但是目前我知道同时发出3个请求,我找不到..的设置。 。

回答 1 投票 0

创建网络抓取工具时如何解决错误“类型为'NoneType'的对象没有len()”?

我正在尝试创建网络抓取工具,以使用Python和BeautifulSoup从网页上下载某些图像。我是一个初学者,仅通过在线查找代码并尝试对其进行修改即可构建此代码。 ...

回答 1 投票 0

TypeError:列表索引必须是整数或切片,而不是str为什么列表索引不是数字

来自bs4的导入请求import BeautifulSoup导入urllib.request import re with open('crawlingweb.csv')as f:content = f.readlines()content = [x.strip()for content in x] for content in i :...

回答 1 投票 -1

如何在带有bs4的python中使用连字符获取标签的值?

我在学校项目中使用模块bs4的python,我在某一方面有问题。我想从标签获取一个值,但是此标签包含破折号(-)。我不知道。显然,我得到了...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.