web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

HLTV/结果抓取工具无法工作。多个相同命名的div

我正在构建一个脚本来抓取 cs2 比赛的 hltv.org/results 页面。但是,我遇到了很多问题,具体来说,网站 hltv.org/results?offset={} 有多个 d...

回答 1 投票 0

我尝试在此网站上进行网页抓取,但不起作用

它一直告诉我这个:[错误页面] DevTools 监听 ws://127.0.0.1:53501/devtools/browser/028c6371-d9c3-4a13-83e1-2d7f598da093 尝试静态抓取 https://secure.ethicspoint...

回答 1 投票 0

如何防止 Selenium 在新内容加载之前过快单击“显示更多”按钮?

我正在尝试使用 Selenium 从足球网站抓取数据,我需要多次单击“显示更多”按钮才能加载所有比赛。该按钮在加载过程中消失并且是

回答 1 投票 0

如何自动抓取网站中嵌入的 power bi 工具中存储的所有 PDF 文件?

因此,正如标题所说,我想自动抓取存储在嵌入网站的 power bi 工具中的所有 PDF 文件。网站如下:网站链接 要下载您需要的每个文件...

回答 1 投票 0

当xpath不工作时复制生成的html

我通常在 Selenium 或 Firefox Console 中使用 xpath 来获取生成的 html。 但奇怪的是,在 archive.org,xpath 不起作用。 例如:https://archive.org/details/pogonyi-cds 我想要...

回答 1 投票 0

谷歌学者网络抓取的迭代

我正在寻求使用 R 来抓取谷歌学者的网页,例如某人没有公开个人资料的情况。 一项挑战是一次只能显示 10 个结果 - 所以,对于某些人来说...

回答 1 投票 0

BeautifulSoup 未阅读页面

我确实有这个简单的页面,我使用selenium和BeautifulSoup。据我所知,该页面加载了 Javascript。有一个加载更多按钮,所以它会点击直到按钮不再出现

回答 1 投票 0

我想从 Instagram 帖子网址获取图像网址

例如,这是一个帖子ID:https://www.instagram.com/p/C8_ohdOR/ 我想要图像源。 首先我使用selenium进行登录,然后抓取图像src。所以通过这个我得到了src。但这是...

回答 1 投票 0

如何在 Python 中迭代表行?

如何在 Python 中循环遍历 HTML 表格行?只是为了让大家知道,我正在网站上工作:https://schools.texastribune.org/districts/。我想做的是单击...

回答 1 投票 0

如何处理加载更多按钮?

我有关于加载更多按钮的问题。页面需要做这样的“路线图”:进入搜索页面,将产品一一“查看”,点击它们,然后返回搜索页面...

回答 1 投票 0

使用 scrapy 项目加载器抓取 json

@wRAR 提示后更新 我正在按照这个例子来抓取新闻网站。当我检查他的例子中返回的类型时,该类型是 scrapy.selector.unified.SelectorList。 就我而言,

回答 1 投票 0

Twikit 库在尝试登录时返回 400

我正在与 Twikit 合作,从 Twitter 网站获取一些数据。但是,当我尝试登录我为执行此项目而创建的帐户时,遇到以下错误。 这是错误: t...

回答 1 投票 0

Beautifulsoup NoneType 对象没有属性“find_all”

按照本教程https://www.scrapingdog.com/blog/scrape-indeed-using-python/,并遇到此错误: 回溯(最近一次调用最后一次): 文件“C:/Users/det-lab/Documents/

回答 1 投票 0

Selenium - 无法使用 xpath 找到元素

我正在用Python编写一个网络爬虫来获取产品列表的当前补丁版本。我试图通过 XPATH 查找文本,但被告知不存在这样的元素。我已经尝试过...

回答 1 投票 0

无法在 GitHub Actions 中运行计划任务 - 网页抓取到 Google 电子表格

我想每天晚上11:00在云端执行网页抓取计划任务。该过程正在复制到我的 Gmail 帐户中的 Google 电子表格中。一个简单的方法是使用 GitHub Actions。但我...

回答 1 投票 0

抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

Scrapy - 抓取 Api 但没有得到我想要的结果页面

很高兴你看到这个问题。我真的需要帮助... 我曾经在 www.britishhorseracing.com 网站上抓取类似赛程的结果 https://www.britishhorseracing.com/racing/results/fixture-

回答 1 投票 0

使用selenium提取标题

我正在尝试使用 Selenium 从网站上抓取食谱标题,但我遇到了一个问题,我只能提取一些标题,而其他标题则返回空字符串。 我正在使用

回答 1 投票 0

R:无法使用 rvest 或 V8 找到 html 中的元素

我想将以下网站主表中的文本下载为表格: https://seia.sea.gob.cl/expediente/expedientesEvaluacion.php?modo=ficha&id_expediente=7673283 桌子看起来...

回答 1 投票 0

数据抓取动态网站性能

我想抓取一个报纸档案网站(genios.de),但遇到了一个问题,即单击后该网站版本的目录会动态呈现。预览窗口打开...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.