web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Selenium Cookie 同意按钮尽管可见但不可点击

我正在尝试使用 Python 中的 Selenium 自动接受“https://www.zalando.de”等网站上的 cookie 同意横幅。 我的脚本搜索各种 cookie 同意按钮

回答 1 投票 0

将新元素追加到空列表中

我面临着将新元素添加到列表中的问题。在第一个 SS 中显示数据,这意味着它存在,但是当我在循环中附加数据时,显示的数据是 Nan。请参阅...

回答 1 投票 0

尝试使用应用程序脚本将此网站的数据获取到谷歌表格中

任何人都可以帮助我使用代码来转换来自该网站的响应吗 https://services.sia.homeoffice.gov.uk/PublicRegister/ 我需要它从谷歌表格中读取许可证号 - 示例:

回答 2 投票 0

Selenium 被 iFrame 阻止,现在从 RotoWire 抓取时不返回所有数据

我有一个功能可以从 Rotowire 上抓取每个 NBA 球员的预计上场时间。它运作良好,但周末该网站似乎添加了某种 Google Ads iFrame,现在导致我

回答 1 投票 0

抓取动态数据表,没有简单的参考

我正在尝试从以下网站的简单表格中获取数据(https://bvmf.bmfbovespa.com.br/clube-de-investimento/clube-de-investimento.aspx?Idioma=pt- br)。我能够获取数据...

回答 2 投票 0

使用 Google Apps 脚本进行网页抓取

我正在尝试使用 Google Apps 脚本从以下示例网页中提取数据: 网址 = http://www.premierleague.com/players/2064/Wayne-Rooney/stats?se=54 使用 UrlFetchApp.Fetch(url) 问题...

回答 2 投票 0

不再能够使用 Rselenium 设置 rsDriver

我使用 rSelenium 已经有几个月了,但现在以前有用的东西不起作用了。我更新了 java 和 rselenium 包,认为一定是这样。 这是我的代码: 图书馆(tidyverse) 图书馆(

回答 1 投票 0

请求和 BeautifulSoup 从 YouTube 获取视频长度

从 YouTube 网址获取视频长度时,从网络浏览器检查显示有一行: 然后我使用 requests 和 BeautifulSoup 来获取它: 导入请求 从 bs4 导入 BeautifulSoup 网址=...

回答 3 投票 0

没有方法时代码块工作正常,而方法中代码块则不正确

我有从网站提取搜索结果的代码片段。我屏蔽了该网站,但在这里共享代码块。 search_page_url =“https://mysite.results/search” 会话 = 请求。

回答 1 投票 0

如何找到网页上“下载”按钮的位置以提供给Python网页抓取代码?

我是使用 Python 进行网页抓取的新手。基本上,我需要做的是找到“下载”按钮的位置并将该位置提供给 Python 代码。位置应该看起来

回答 1 投票 0

网页抓取的困难

我刚刚看到一篇名为《史上最伟大的 500 首歌曲》的文章,心想“哦,太酷了,我打赌他们还制作了一个我可以关注的 Spotify/Apple 音乐列表”。嗯……他们不……

回答 1 投票 0

直接保存文件到指定路径,不显示保存或打开对话框

我正在使用网页中调用 javascript webBrowser2.Document.InvokeScript(“download_file”);`。 此 JavaScript 打开对话框,要求用户保存或打开文件。我想拯救...

回答 2 投票 0

使用 Selenium 和 Chromium 时,WebDriver 在出现“在缓存中找到驱动程序”消息后无法继续运行

我正在使用 Selenium 和 Python 在 Ubuntu 系统上以无头模式执行网页抓取。我的脚本配置日志记录并使用上下文管理器来处理 WebDriver。然而,脚本停止了

回答 1 投票 0

相同的脚本不适用于亚马逊网站

以下代码按预期工作。 从 Parsera 导入 Parsera url =“https://news.ycombinator.com/” 元素={ "Title": "新闻标题", “积分&...

回答 1 投票 0

为什么要验证两次 `href` 属性?

我在 Ryan Mitchel 的 Web Scraping with Python 中找到了以下 Web 抓取代码: 从 urllib.request 导入 urlopen 从 bs4 导入 BeautifulSoup 进口再 页面=设置() def getLinks(pageUr...

回答 1 投票 0

使用 selenium (python) 将图像上传到 Facebook Marketplace

我正在尝试自动化在 Facebook 市场上创建广告。 我成功登录并进入正确的页面。 但我不知道如何用硒上传图像。 事实上,该元素具有...

回答 2 投票 0

Steam 商店抓取 - 如何获取其他国家/地区的价格?

对于一个项目,我想显示有关 Steam 游戏的数据,因此我尝试从 Steam 商店检索数据。对于应用程序和软件包,有一个非常好的 API 可供使用。 (示例:https://store.steampo...

回答 3 投票 0

X (Twitter) 使用 twikit 进行网页抓取。如何验证auth_token是否过期?

我正在尝试使用 twikit python lib 来 webscrape X(以前称为 twitter)。 我无法验证 auth_token 是否过期。 这是供您参考的代码片段: 来自 twikit 我...

回答 1 投票 0

Google 搜索抓取返回 200 状态但没有结果,只有一个隐藏的 HTML div

我一直在使用Python抓取Google搜索结果,但从昨天开始,我遇到了一个问题。当我发送请求时,它返回 200 状态代码,但不是搜索结果,而是...

回答 1 投票 0

Python 网络抓取 - 不显示数据,仅显示标题

我找到了原始的python代码https://www.actowizsolutions.com/scrape-freedom-of-information-request-portals-data.php。 我开始将其用于我的抓取项目,但是似乎当我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.