web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

抓取网站时收集不同的属性

我一直在为不同的网站创建蜘蛛,其中包含输出原始文本,文本和URL的文章。我想获取更多信息,例如描述,语言,发布日期...

回答 1 投票 1

计划服务器上的数千个任务[PHP脚本]

假设一个网站需要每5分钟显示一次更新的内容。确保我们可以使用玉米作业来调度PHP脚本,例如$ weather = file_get_contents(“ https://weather.com/country / ...

回答 1 投票 0

selenium-滚动浏览网站后获取所有推文-python

我的问题实际上是两个。一种是我向下滚动直到它不再起作用,然后尝试保存所有答案。不幸的是,我只得到了较低答案的一小部分。有没有办法得到...

回答 1 投票 0

使用Apify Puppeteer爬行时出现内存问题

我一直在研究一个Python项目,在该项目中,用户向程序提供了很长的URL列表(比如说100个URL),该程序将产生100个进程来执行JavaScript代码,这是...

回答 1 投票 0

抓取时抓取返回无序值

我是Scrapy的新手,我正在尝试爬网此页面并从商品中获取价格,问题是scrapy正在返回无序的值,我不知道为什么。这是我的简单代码...

回答 1 投票 0

Apify抓取后如何重命名输出文件?

我已经搜索了Apify文档,但找不到用于设置输出文件名的方法。现在是{INDEX} .json,但是我可以为Apify的每个页面指定一个自定义名称吗...

回答 1 投票 0

在iOS应用程序的后台在html中查找值

我是iOS开发的新手,我正在尝试制作一个跟踪我的学生贷款的应用。我希望该应用程序仅显示在贷款网站上找到的余额并以此为基础。我是...

回答 1 投票 0


使用php-spider,是否有一个标准的Xpath可能会在大多数网站上发现URI?

我正在使用名为php-spider的精彩脚本,目标是从一些网站上删除Title,Desc,H1,H2,H3和H4。在配置脚本的过程中,有必要设置一个'...

回答 1 投票 0

如何仅获得Twint(Twitter)输出的Tweets数量?

使用代码Twint -s'Nike SB Dunk Low Safari'-自“ 2020-03-07 00:00:00”-直到“ 2020-03-14 00:00:00” -count -o file1.csv --csv我们想从Twint(...

回答 1 投票 0

如何使用以下代码确定xpath?

如何使用以下代码编写xpath。 25 50 100

回答 1 投票 0

使用BS4的Web爬行返回了不正确的html内容

我正在通过从Yocket收集数据来查找有关入读特定大学的学生的GPA,GRE和工作经历的一些统计数据。当我的代码对于...

回答 1 投票 0

scrapy -splash为什么我不能使用element.click()单击元素? (element.click()无效)

[运行启动服务后,我访问网页(http://192.168.99.100:8050)上的启动服务端口。通过运行lua_script,我要登录QQ(一个流行的中文聊天应用程序)网页并删除.. 。

回答 1 投票 2

如何关闭这个关闭的数据库?

这是我正在运行的代码:导入请求从bs4导入记录,从urllib.parse导入BeautifulSoup,从sqlalchemy.exc导入urljoin,导入IntegrityError db = records.Database('...

回答 1 投票 0


如何使用JavaScript从动态滚动列表中获取所有元素?

就像标题说的那样,如何从滚动div中获取所有元素?滚动列表中的元素是动态加载和销毁的。我试图从该网站抓取所有课程名称:https:// ...

回答 1 投票 -3

通过子字符串查找div类,然后提取整个类名称

我正在尝试查找包含子字符串'auction-results'的所有div,然后提取类名。这是一个示例: 我可以...

回答 2 投票 0

如何在Windows中安装scrapy

[当我尝试使用pip命令安装scrapy时,出现以下错误pip install scrapy错误:需要Microsoft Visual C ++ 14.0。通过“ Visual Studio的构建工具”获得它:https:// ...

回答 1 投票 0

在Athena中查询另一个AWS账户中S3存储桶中的数据时,访问被拒绝

我想使用Glue Crawler从S3存储桶中搜寻数据。该S3存储桶在另一个AWS账户中。我们将其称为帐户A。我的抓取工具在帐户B中。我已经在帐户B中创建了一个角色,并且...

回答 1 投票 0

[c#抓取规则不适用于cnn网站

我是C#爬网的初学者,我曾尝试从(https://edition.cnn.com/)爬网CNN头条新闻,但我未能获得头条文本。目标看起来像下面的html(对不起,我不是...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.