web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

元标签说明

有人可以告诉我这是否是允许谷歌机器人抓取我们网站的正确方法? 还有什么更好让谷歌...

回答 2 投票 0

Selenium 页面加载为空白,除非使用相同的配置文件手动打开浏览器

我正在使用 selenium 进行爬行项目,但我在处理特定网页(chrome 和 firefox)时遇到了困难。 我发现了 2 个可以在一定程度上发挥作用的解决方法,但我想知道为什么会出现此问题...

回答 1 投票 0

如何用Python编写网络爬虫? [已关闭]

我需要用Python编写一个网络爬虫来搜索基本页面的内容,根据给定的规则找到特定的链接(例如链接应该以https而不是http开头)。我正在浏览的页面...

回答 1 投票 0

Scrapy 问题 - 当我运行 scrapy 文件时,没有输出

` 导入scrapy AudibleSpider 类(scrapy.Spider): 名称 = '可听' allowed_domains = ['www.audible.com'] def start_requests(自身): 产量 scrapy.Request( 网址=...

回答 1 投票 0

Googlebot 找不到 ads.txt 文件

我试图在我的网站上获取 google adsense,但每次 google 抓取我的网站时,它都会显示 ads.txt 状态为“未找到”。我可以通过 goi 查看许多帐户的 ads.txt 文件...

回答 1 投票 0

如何完全忽略chrome中的“调试器”语句?

“永远不要在这里暂停”不起作用 我继续之后: 还是暂停了

回答 3 投票 0

元素不可交互 - Selenium headless chrome=115.0.5790.170 - 如何解决这个问题?

我在使用带有无头chrome=115.0.5790.170的selenium时遇到问题,我有一张桌子和一个带有这个标签的td。 我在无头 chrome=115.0.5790.170 中使用 selenium 时遇到问题,我有一张桌子和一个带有此标签的 td。 <a id="formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64" href="#" class="ui-commandlink ui-widget" onclick="PrimeFaces.addSubmitParam('formSegundaViaFatura',{'formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64':'formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64'}).submit('formSegundaViaFatura');return false;">2 via</a> 此代码将在没有图形资源的虚拟机中运行,只有终端,这就是我需要无头的原因。但是当我尝试与发送 click() 的此元素进行特定交互时,会出现错误。 Message: element not interactable (Session info: headless chrome=115.0.5790.170) Stacktrace: 如果有人知道我如何避免这个错误并与这个元素交互,我将非常感激,因为这是使这个爬虫在无头模式下工作的最后一部分。 如果您的问题是由使用 headless Chrome 引起的,那么您可以尝试使用 Chrome 的 newer 无头模式,该模式的激活方式如下: options.add_argument("--headless=chrome") 在完整的脚本中,看起来像这样: from selenium import webdriver from selenium.webdriver.chrome.service import Service service = Service() options = webdriver.ChromeOptions() options.add_argument("--headless=chrome") driver = webdriver.Chrome(service=service, options=options) # ... This is where you automate things... driver.quit() 您的自动化现在将在新的无头模式下获得与常规有头 Chrome 相同的结果。

回答 1 投票 0

网络抓取 Instagram 时出现问题

def insta_searching(word): url = "https://www.instagram.com/explore/tags/" + str(word) 返回网址 def select_first(驱动程序): 首先 = driver.find_element_by_css_selector("div.

回答 1 投票 0

为什么这个网站无法使用 Selenium + Python 正确加载 cookie?

我正在做一些网络抓取,实际上我的代码有问题。 我想做的就是: 进入网站 https://solucoes.receita.fazenda.gov.br/Servicos/cnpjreva/cnpjreva_solicitacao.asp 哇...

回答 1 投票 0

我想用BeautifulSoup和Requests构建一个网络爬虫,我还需要实现一个我不知道如何编码的关键字系统

我是一个完全的初学者。我懂一点 Java,但仅此而已。 从 bs4 导入 BeautifulSoup 从 pprint 导入 pprint url = 'https://jc.ne10.uol.com.br/economia' 数据 = requests.get(url) 我的...

回答 2 投票 0

如何通过Python爬行从网站获取数据

如何通过Python爬行从网站获取数据 项目介绍: 对于我的工作项目。 我需要从网站获取数据并在 Excel 文件或 csv 文件中显示结果。 我如何从

回答 1 投票 0

无法导出JSON文件

以下代码确实以CSV文件格式导出,但不以JSON格式导出。 我不知道问题是什么,也许是因为我无法在我的 scrapy 蜘蛛中使用爬行语法,而我使用

回答 1 投票 0

Selenium 驱动程序未反映 click() 后的页面更改

我想获取 etoro 上的库存清单。 但是当我尝试单击 selenium => 进行 click() 后,我希望元素已更新,但元素与 click() 之前相同 来自

回答 1 投票 0

如何用PHP识别google/yahoo/msn的网络爬虫?

据我所知, $_SERVER['REMOTE_HOST'] 应该以“google.com”或“yahoo.com”结尾。 但这是最有保障的方法吗? 还有其他出路吗?

回答 9 投票 0

骨架加载器会阻止爬虫索引页面吗?

我们使用动态服务器渲染,这提供了更长的页面加载时间。有一个想法改用骷髅。 但有人担心这会干扰搜索引擎对页面的索引...

回答 1 投票 0

使用scrapy如何在python中爬取youtube链接

我需要知道使用Scrapy [python],以及如何具体获取网站上的youtube链接,有什么值得赞赏的想法吗?

回答 2 投票 0

根据邮政编码从超市网页提取产品数量

我正在尝试提取此网页上可用的产品数量: https://www.sklavenitis.gr/eidi-artozacharoplasteioy/keik-tsoyrekia-kroyasan/ 我有使用 scrapy 的代码,它确实能够...

回答 0 投票 0

是否可以使用 Goutte/PHP 抓取基于 JavaScript 的网站?

我想抓取几个网站,这些网站显然是使用 JavaScript 渲染的。具体来说,我想定位这个网站:http://cve.mitre.org/find/index.html 这是我的代码: $客户=新

回答 2 投票 0

抓取shopee 产品数据

我尝试使用Python脚本来获取Shopee产品数据,但它返回了一个错误。 我调用的API: https://my.xiapibuy.com/api/v4/pdp/get_pc?shop_id=169902600&item_id=22911296867 这个API来了...

回答 0 投票 0

有关账户资料和帖子/评论内容的TradingView爬虫API

根据本文在线金融通信平台中的不当行为和账户暂停 他们通过API访问TradingView的数据,特别是被暂停的账户会返回...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.