web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

当 TCP 连接冻结时,Scrapy 在超时限制时强制关闭

在我的 scpraper 中,我有一个特定的网址,它会定期下降。完成统计数据显示 '下载者/异常计数':2, '下载器/exception_type_count/twisted.internet.error.TCPTimedOutError'...

回答 1 投票 0

虽然没有被屏蔽但抓取但没有内容

我已经抓取了nhatot.com网站的内容,但是没有可用的内容。我认为我的计算机被阻止了,但事实并非如此。我可以正常访问网站(nhatot.com) 这是我的Python代码

回答 1 投票 0

Selenium 无法加载页面

我正在使用selenium自动登录网站https:// Fiverraffiliates.com/loginaffiliate/。但 Selenium 没有加载页面。 它只是显示了一个白色的网站,什么也没发生(下面是我...

回答 1 投票 0

为什么scrapy shell没有返回输出?

我遵循本教程是因为我想学习网络抓取。 https://www.datacamp.com/tutorial/making-web-crawlers-scrapy-python 当我开始使用 CSS 选择器进行提取时,我...

回答 1 投票 0

测试所有内部链接

我运行 NodeJS 服务器。我有时会删除页面并忘记删除引用。我想测试所有内部链接是否正常工作。我想象一个爬虫和一个 npm 测试包,c...

回答 2 投票 0

如何使用selenium绕过滑块验证码来解决谜题?(Python)

在上述网站上,搜索令牌后,会出现滑块验证码。 验证码示例: 我想绕过滑块验证码。我参考了Unabl中的第一个解决方案...

回答 1 投票 0

Python requests.get(url) 在 Colab 中返回空内容

我正在通过请求抓取网站,但是尽管response.status_code返回200,但response.text或response.content中没有内容。 另一个带有代码的网站运行良好,在本地 Jupyter

回答 1 投票 0

如何获取与特定模式匹配的网站的所有现有 URL 的列表?

我正在尝试分析具有特定路径的网站的所有现有 URL。为了通过示例进行演示,URL 模式如下: https://www.example.com/users/john 我正在尝试...

回答 1 投票 0

Selenium爬虫在本地启动没有问题,但在Linux上总是启动失败,org.openqa.selenium.interactions.Cooperatives

利用Java做一个Selenium爬虫项目,可以爬取一些我需要的信息到服务器 我在本地使用 Selenium 爬虫没有任何问题,然后我尝试将其部署到 Linux 服务器并...

回答 1 投票 0

Xing 将错误的公司与工作机会关联起来

我们为客户制作了一个网站。该网站上有一个包含空缺职位的页面。如果我在 Xing 上搜索上述职位,我会发现它们在我们公司(制作该网站的人)中列为 em...

回答 1 投票 0

如何在搜索引擎爬虫的页面加载之前执行javasript函数?

我的任务是从 API 中获取页面的标题。这些数据必须可供网络爬虫抓取。这就是我到目前为止所做的。 我的任务是从 API 中获取页面的标题。这些数据必须可供网络爬虫抓取。这就是我到目前为止所做的。 <!DOCTYPE html> <html lang="en"> <head> <meta name="description" content="Test description" /> <title>Test title</title> <script> document.addEventListener('DOMContentLoaded', function () { const endPoint = 'endpoint.com' fetch(apiEndpoint).then(function (response) { return response.json(); }) .then(function (data) { // change title with javascript logic }).catch(function() { // fallback title }) }) </script> </head> <body></body> </html> 您不需要延迟脚本的运行,因为它已经在创建标题标签之后了。 Google 和其他一些搜索引擎确实会渲染页面,并且只要不花太长时间就会看到您的更改。我发现 5 秒差不多是极限了。

回答 1 投票 0

Scrapy:USER_AGENT 和 ROBOTSXTXT_OBEY 设置正确,但我仍然收到错误 403

您好,提前感谢您提供的帮助或指导。这是我的刮刀: 导入scrapy 类 RakutenSpider(scrapy.Spider): 名称=“拉克” allowed_domains = [“rakuten.com”...

回答 2 投票 0

Facebook 市场的 Python scraper 不再工作了

从昨天开始,我遇到了一个问题,我的Facebook市场抓取工具停止获取数据,由于他的功能,我目前正在使用scrapy,我是否做错了什么?输出已共享...

回答 1 投票 0

网站分支地址即使在 1 个月后也没有在 Google 搜索引擎中更新

Adecco 地点的工作时间未在 Google 上更新: 对于 Adecco 比利时的两个地点 - Adecco Hoogstraten 和 ADECCO OOSTMALLE,工作时间在 sitecore 中更新如下:

回答 1 投票 0

无法使用 Selenium (Python) 从雅虎新闻中找到某些元素

我正在尝试从雅虎新闻收集评论,但无法使用 Selenium 找到评论部分的文本元素。 从硒导入网络驱动程序 来自 selenium.webdriver.common.keys

回答 1 投票 0

如何使用Jsoup获取页面对象列表

我已经使用 Jsoup 很长时间了,我设法在几个网站上捕获它,但有一个我根本做不到,我尝试过传递几乎所有可能的 id,但我可以' t 返回

回答 1 投票 0

使用自定义爬虫防止虚假分析统计数据

有没有办法通过使用 PhantomJS 和/或像 Anemone 这样的 ruby 爬虫来防止伪造 Google Analytics 统计数据? 我们的监控工具(基于两者)从我们的客户端抓取网站...

回答 3 投票 0

我的蜘蛛在Scrapy中根本不进入yield scrapy.Request()

我在 Scrapy 中的蜘蛛遇到了问题。根据搜索键,我抓取了搜索结果页面并找到了链接。但是下一个抓取结果页面的yield scrapy.Request() 并没有进入...

回答 1 投票 0

如何防止机器人在 CodeIgniter 中创建会话?

我正在使用 CodeIgniter 并将会话存储在我的数据库中。 在短时间内,机器人/蜘蛛等会创建大量会话。 有办法防止这种情况吗?也许通过 .

回答 1 投票 0

向下滚动时page_source发生变化时如何进行动态网页抓取

我正在尝试从网站抓取数据。 问题是当我向下滚动时源代码正在改变。 例如 第一次,页面源代码就像... 我正在尝试从网站抓取数据。 问题是当我向下滚动时源代码正在改变。 例如 第一次的时候,页面源码就像... <div role="presentation" style="transform: translateY(4088px);"> <div role="row" aria-rowindex="1" aria-selected="false"> <div role="row" aria-rowindex="2" aria-selected="false"> <div role="row" aria-rowindex="3" aria-selected="false"> ... <div role="row" aria-rowindex="8" aria-selected="false"> 当我向下滚动时 <div role="presentation" style="transform: translateY(4088px);"> <div role="row" aria-rowindex="22" aria-selected="false"> <div role="row" aria-rowindex="23" aria-selected="false"> <div role="row" aria-rowindex="24" aria-selected="false"> ... <div role="row" aria-rowindex="29" aria-selected="false"> 我想从此标签获取信息<div role="row" aria-rowindex="?" aria-selected="false"> 现在,我正在使用这段代码。 elem = driver.find_element(By.XPATH, f"//div[@aria-rowindex={num+1}]") 我想到了一个想法,只需一点一点地向下滚动并获取所有信息,然后再次滚动...... 但我想知道有没有更好的办法来解决这个问题? 我们可以通过两种方式解决这个问题 使用 selenium 自动化滚动并提取相应的 div 标签 使用网络调试滚动时识别在后台进行的 XHR 请求。接受请求并以您喜欢的语言实现请求 在 Selenium with Ruby 中,您可以使用 execute_script 方法来运行滚动网页的 JavaScript 代码。以下是如何在 Ruby 中使用 Selenium 向下滚动的示例: require 'selenium-webdriver' # Set up the Selenium WebDriver driver = Selenium::WebDriver.for :chrome # Navigate to the webpage driver.get("https://testwebsite.com") # Scroll down the page driver.execute_script("window.scrollBy(0, 500);") # Wait for a few seconds to see the effect sleep(rand(3..5)) # Close the browser driver.quit 此示例使用 JavaScript 中的 window.scrollBy 方法将页面向下滚动指定的像素数(在本例中为 500 像素)。您可以根据您的要求调整值。 如果你想滚动到页面上的特定元素,可以使用 scrollIntoView 方法。例如: require 'selenium-webdriver' # Set up the Selenium WebDriver driver = Selenium::WebDriver.for :chrome # Navigate to the webpage driver.get("https://testwebsite.com") # Find the element you want to scroll to element = driver.find_element(:id, 'exampleElement') # Scroll to the element driver.execute_script("arguments[0].scrollIntoView(true);", element) # Wait for a few seconds to see the effect sleep(rand(3..5)) # Close the browser driver.quit 在此示例中,将 'exampleElement' 替换为要滚动到的元素的实际 ID 或其他定位器。 scrollIntoView 方法将元素滚动到浏览器窗口的可见区域。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.