web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Scrapy JSON获得价值

使用此链接我试图在每个实例之后得到以下数据,这将是100个数据集contributor-finite-meta“:{”data“:{”id“:”4103089“预期结果将是:.. 。

回答 1 投票 0

Web抓取循环问题 - 未附加到页面文档的元素[重复]

我想为2015至2019年的所有滑冰者下载游戏日志CSV文件:https://evolving-hockey.com/但是,在...的不同时间会弹出一条错误消息

回答 1 投票 0

我可以在app.run中抓取或提取数据吗?

我正在使用python和beautifulsoup,我需要在app.run下提取一些数据({“data”:Id“:”124330049“,”stock“:83})。当我试图找到这些值时,它返回一个空使用查找列表。我可以......

回答 1 投票 0

“True Loop”不会导致函数再次执行

问题的标题几乎是不言自明的。我目前正在运行以下代码:来自selenium import webdriver from bs4 import BeautifulSoup import time import datetime url =“...

回答 1 投票 2

无法从表中获取所有名称

我在python中创建了一个脚本,从网页中获取表中的所有名称。该表中的名称在页面源中可用,因此它们是静态内容。但是,当我试着用我的...

回答 2 投票 0

在KNIME刮刀中设置“等待”

我正在为一个项目构建一个新闻报道器,我找到了通过大多数站点的方式,但是一个让我头疼,因为每当我尝试批量提取文章内容时,大多数html ......

回答 1 投票 0

将YouTube频道ID收入Google表格?

我正在尝试抓取YouTube频道ID(例如UCqwbZ-xTkn_EmyIhSvZRRWQ)并使用IMPORTXML公式将其导入Google表格,但没有运气。频道ID可在页面中找到...

回答 2 投票 0

无法读取带有网址的csv,以便在python中抓取它们

我是python的新手所以我尝试使用visual studio和windows 7从bs4导入以下导入csv导入请求content = [] with open('websupplies.csv','r')为csvf:#...

回答 2 投票 1

找到最近的Button Selenium Python

在找到包含特定主题标签husky(这是一个超链接)的注释后,我试图单击“删除注释”按钮。由于有多个“删除评论”按钮,我认为......

回答 2 投票 0

刮擦维基(不是维基百科)信息框

我可以使用rvest在任何维基百科网站上删除信息框,但我想在维基页面上做同样的事情,但无法使其工作......链接:https://dc.fandom.com/wiki/Wonder_Woman_ (Diana_Prince)...

回答 1 投票 0

使用Selenium WebDriver抓取HTML代码的问题:返回的URL和操作值与控制台值不同

我希望我能找到你。作为Python和网络抓取的新手,我希望你能帮助我理解我正在处理的项目中遇到的问题。为了给你一些背景,我......

回答 2 投票 0

将已删除的数据从网页保存到Excel文件时出现问题

我是使用Python进行抓取的新手。在使用了大量有用的资源后,我能够抓取一个页面的内容。但是,我无法将此数据保存到.csv文件中。 Python:导入...

回答 1 投票 0

使用Beautiful Soup / Web Scraping获取整个细胞信息

我正试图从游戏“最终幻想XIII”(https://finalfantasy.fandom.com/wiki/Final_Fantasy_XIII_weapons)中删除这张武器统计表。我怎样才能列出整个内容......

回答 2 投票 0

Python HTML通过文本获取div ID

我有一点不寻常的要求;我希望根据它在网页上显示的文本获取div的id。例如,假设我有以下html:

回答 3 投票 0

使用生成的聊天窗口中的时间戳来刮取文本数据

我想从Twitch剪辑中删除聊天数据。这就像一个保存的直播片段,你可以看到人们如何反应那一刻。我们可以以此为例:https://clips.twitch.tv / ...

回答 1 投票 -1

登录Sales navigator python selenium

我正在努力实现一个简单的登录销售导航页面的任务,之后我可以继续尝试废弃潜在客户和帐户数据,作为一种刮取练习。点击此链接...

回答 1 投票 1

使用R进行Web抓取 - 如何使用AJAX单击动态网页中的按钮?

如何修改以下R代码以提取季度数据?我正在尝试从Yahoo Finance获取数据,这是一个使用AJAX的动态网页,因此年份和...的地址保持不变

回答 1 投票 1

(Selenium)下载并重命名文件问题

我使用selenium登录页面,并下载一些tiff文件,现在我有一个变量downloadurl,它包含我从网站上抓取的一系列网址链接。现在我使用以下代码...

回答 2 投票 -1

刮网,直到“下一页”被禁用

url ='https://www.tripadvisor.ie/Attraction_Review-g295424-d2038312-Reviews-Global_Village-Dubai_Emirate_of_Dubai.html'response = requests.get(url)soup = BeautifulSoup(response.text,'html.parser')。 ..

回答 1 投票 1

匹配html中的确切类 tags using BeautifulSoup

我正在使用Beautiful Soup从网站上抓取信息。相关代码:page_url = https://www.autotrader.co.uk/car-search?sort = spons&radius = 1500&postcode =&onesearchad =使用&...

回答 2 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.