web-crawler 相关问题

Web爬虫（也称为Web爬虫）是一种以有条不紊，自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁，自动索引器，僵尸程序，Web蜘蛛，Web机器人，或者 - 尤其是在FOAF社区中 - Web scutters。

抓取OTT平台内容列表

如何抓取 OTT 流媒体平台（Netflix、Prime video、HULU、Hotstar 等）目录列表，其中包含 flixjini、justwatchit 等详细信息？

web web-crawler ott

回答 2 投票 0

为像样的搜索引擎提供支持的常见爬行要求

Common Crawl 每月都会释放大量数据负载，大小接近数百 TB。这种情况已经持续了8-9年。这些快照是独立的（可能不是）？或者我们必须

web-crawler common-crawl

回答 1 投票 0

如何以编程方式填充使用 React 构建的输入元素？

我的任务是抓取用 React 构建的网站。我正在尝试填写输入字段并使用 javascript 注入到页面（移动设备中的 selenium 或 webview）提交表单。这有效...

javascript reactjs automation web-crawler

回答 7 投票 0

如何使用化合物名称以编程方式对 pubchem 进行模糊搜索

当我使用关键字“1-（2-羟基苯基）-2-苯基乙酮”手动搜索pubchem网页时，我得到了以下结果。尽管没有任何化合物与上述键完全匹配...

python request web-crawler chemistry pubchem

回答 2 投票 0

Scrapy 使用带有规则的 start_requests

我找不到任何使用带有规则的start_requests的解决方案，而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单，我想重新定义 start_request 函数以获得一个

scrapy web-crawler

回答 3 投票 0

Wget 与 python 请求给出不同的结果

我一直在尝试从这个网站提取交易记录：https://www.house730.com/en-us/deal/?type=rent。研究堆栈溢出时，我偶然发现了一个使用 urllib.re 的解决方案...

html selenium-webdriver web-crawler wget

回答 1 投票 0

我使用 `rvest` 抓取网页并将 read_html() 的结果存储在列表对象中。我关闭了 Rstudio，当我重新打开并尝试加载时，出现错误

这就是我所做的：图书馆（rvest）列表[[i]] <- read_html(link) save(list, path = "path.Rdata") Then I closed and reopened the environment. load("path.Rdata") list[[i]] ...

r web-scraping tidyverse web-crawler rvest

回答 1 投票 0

Python、Selenium 网页抓取：从第一个网页到第二个网页的弹出问题

这个问题困扰了我好几天了，一直没找到合适的解决办法。目前，我正在使用 Python 和 Selenium 进行网络抓取。单击 f 上的按钮后...

python selenium-webdriver web web-crawler

回答 1 投票 0

从特定维基百科门户获取所有文章

我正在尝试整理门户网站下所有文章的列表：水 (例如 json "url": "https://en.wikipedia.org/wiki/Heavy_water", "title": "重水&quo...

web-crawler wikipedia mediawiki-api

回答 1 投票 0

如何防止 Bing 不定期地淹没我的网站？

Bingbot 每天会在几个小时内非常频繁地访问我的网站，而在其余时间里会非常轻松。我要么想平滑其爬行，降低其速率限制，要么……

web-crawler robots.txt bing bingbot

回答 3 投票 0

为什么 Facebook 淹没了我的网站？

每个半小时我都会收到来自 http://www.facebook.com/externalhit_uatext.php 的大量请求。我知道这些请求意味着什么，但这种行为很奇怪。定期...

facebook web-crawler

回答 2 投票 0

我无法获取 Selenium 的 Youtube 评论

所以基本上我使用 Selenium 来抓取 Youtube 视频的评论。所以我需要获取作者姓名和他们的评论。但无论如何。我可以获取并打印出包含所有

python selenium-webdriver youtube web-crawler

回答 1 投票 0

使用Python（Selenium + BeautifulSoup）从交互式图表中提取数据

我需要从此链接中的资产演变图表中提取数据（示例）：https://investidor10.com.br/carteira/572422/（附有图表图像）。我需要我存在的所有条形图的数据...

python selenium-webdriver web-scraping beautifulsoup web-crawler

回答 1 投票 0

仅针对特定子域从 robots.txt 禁用 Nextjs 应用程序的网络抓取

我的网站部署在 vercel 上，该网站是直接部署在 vercel 上的 Next js 应用程序（不使用 nginx 或任何其他 Web 服务服务器）。有两个域分配给同一个我们...

web-crawler seo vercel robots.txt google-crawlers

回答 1 投票 0

如何在我的java应用程序中使用selenium单击下拉菜单中的按钮？

我需要从网站读取数据并根据该数据构建菜单对象。但在我做到这一点之前，我需要使用该网站的英文版本，然后单击...

java spring selenium-webdriver web-crawler

回答 3 投票 0

如何用Python制作多边形雷达（蜘蛛）图

导入 matplotlib.pyplot 作为 plt 将 numpy 导入为 np labels=['围攻', '启动', 'Crowd_control', 'Wave_clear', 'Objective_damage'] 标记 = [0, 1, 2, 3, 4, 5] str_markers = [“0”，“...

python matplotlib charts web-crawler

回答 3 投票 0

使用美丽的汤用动态javascript抓取网站

我正在尝试 IBM 文档。以下是我正在查看的网址。我想知道如何以编程方式展开左侧窗格上的所有切换，以便我可以获得所有 URL 并获得...

python selenium-webdriver beautifulsoup web-crawler

回答 1 投票 0

从网络抓取数据

目前我有一个从特定网站爬取数据的项目，如下所示，这是我自 2023 年以来用于爬取的代码，现在在 2024 年网站已更改，我不知道如何修复

python dataframe beautifulsoup web-crawler

回答 1 投票 0

如何阻止谷歌或任何搜索引擎索引网站图像？ [已关闭]

如何阻止 Google 爬虫或任何搜索引擎爬虫等爬虫不索引特定网页中的图像？