web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何查找并点击网站的按钮?

我尝试开发一个基于Selenium的python脚本来操作网站。这是网站: https://www.heatpumpkeymark.com/en/?type=109126&tx_pskeymark_frontend%5Bholder%5D=2482&

回答 1 投票 0

使用 python 和 selenium 从网站检索课程表更改 No Such Element 错误、ID、XPATH 等

我的学校有一个系统可以告诉我们日程安排是否有任何变化。 从硒导入网络驱动程序 从 selenium.webdriver.common.by 导入 从 selenium.webdriver.support.ui 导入 WebDriverW...

回答 1 投票 0

如何抓取 eBay 字段,如条件、尺寸、型号、年份等?

我是一名非常新的编码员,我正在使用 Collab 和 Python。我正在尝试在 eBay 上搜索产品信息,主要是运动鞋。我想抓取列表中的字段并需要代码来重新...

回答 1 投票 0

无法利用应用程序脚本中的 CSS 选择器获取下一页链接

我试图使用应用程序脚本中的CSS选择器从此网页抓取下一页链接,但结果总是未定义,即使我定义的选择器是正确的。 函数 fetchInform...

回答 1 投票 0

Web 抓取 DataFrame 但只有 500 行

我的目标是在 https://data.eastmoney.com/executive/list.html 上抓取表格并将其保存到 Excel 中。请注意,它有 2945 页,我想将它们全部放入一张 Excel 工作表中。

回答 1 投票 0

如何在Python中抓取Instagram帐户信息

我正在尝试用Python做一些非常简单的事情,但不知何故它非常困难。我想做的就是写一个 python 脚本来记录 Instagram 用户关注的人数,...

回答 7 投票 0

在 PHP 抓取结果中按 <br> 分割文本

我正在编写一个PHP抓取程序。该程序对我来说运行顺利,但我发现抓取结果与我的预期略有不同。 这是我的脚本 $ch=curl_init(); 卷曲_setopt...

回答 1 投票 0

如何使用 Web Scraper 或其他替代方案抓取大量(>800)Google 我的地图位置数据(“Google 地图的详细信息”)?

我尝试使用 Web Scraper,但它仅适用于少数数据条目,不适用于数百个数据点。有没有一种方法可以仅使用 Web Scraper 来抓取大量数据,或者有更好的方法

回答 4 投票 0

无法使用列表理解创建类似的列标题,就像 pandas 对特定表所做的那样

我正在尝试使用列表理解从网页中抓取表格的标题。我面临的问题是,当我使用 pandas 创建相同的标题时,外观有很大不同。只是...

回答 1 投票 0

我如何使用美丽的汤从篮球参考比赛结果中抓取表格

我正在尝试使用Python中的Beautiful soup从篮球参考中抓取并解析结果表。 这是我正在尝试抓取的页面:https://www.basketball-reference.com/boxscores/

回答 1 投票 0

如何使用python从内网站点抓取URL数据?

我需要一个Python Warrior来帮助我(我是菜鸟)!我正在尝试使用模块 urllib 从内部网站点抓取某些数据。不过,由于这是我公司的网站,仅供员工使用...

回答 2 投票 0

R 中使用 rvest 进行网页抓取的问题

我正在尝试从这个网站上抓取政治演讲:https://www.narendramodi.in/category/text-speeches 使用 rvest 包,我刚刚开始使用以下代码: 莫迪<- "https://www.

回答 1 投票 0

使用硒抓取页面时元素不可点击

我正在尝试抓取此网站:https://www.lavoro.gov.it/,当我在搜索栏中搜索关键字时遇到问题,我进入以下页面: 现在如你所见,我正在尝试...

回答 1 投票 0

使用 Selenium ChromeDriver 打开 chrome 选项卡到某个网址

我正在创建一个自动化程序,并且创建了一个浏览器自动化类来处理 Chrome 浏览器的自动化和打开。我已将代码分成两个文件,分别是 main.py (

回答 1 投票 0

如何抓取已禁用 DevTools 的网站

如何抓取已禁用 Chrome DevTools 的网站? 使用 Puppeteer,我尝试使用特定航空公司各自的 CSS 选择器获取其出发和到达时间,但是......

回答 1 投票 0

如何使用selenium从网页中抓取数据

我想从此链接中抓取所有参展商名称和信息:https://asiatechxsg.com/exhibitors/ 到 csv 文件中。 我这样写过: html = requests.get('https://asiatechxsg.com/

回答 2 投票 0

单击 cookie 横幅错误并在 Selenium 中启用搜索栏

我需要抓取此网页https://www.mef.gov.it/,当我尝试运行以下在搜索栏中搜索的代码时: # 找到搜索栏 click_on_search = driver.find_element(By.ID, "海...

回答 1 投票 0

如何从具有相同类的多个元素中抓取数据?

我正在尝试从电子竞技统计网站(vlr.gg)中抓取一些数据。我决定使用 BeatifulSoup,但现在从相同的类名中抓取数据时遇到一些问题。 box5=soup.find_all("div&

回答 1 投票 0

如何从网页中抓取参展商名称和描述

我想从此链接中抓取所有参展商名称和信息:https://asiatechxsg.com/exhibitors/ 到 csv 文件中。 我这样写过: html = requests.get('https://asiatechxsg.com/

回答 1 投票 0

Python-BeautifulSoup-如何从多个同名类中导出数据

box5=soup.find_all("div",class_="match-header-vs-score") 对于方框 5 中的 p: matchtdetails=p.find("div",class_="match-header-vs-note").get_text(strip=True)

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.