web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Python web scrape登录

我是python的新手,并尝试使用xpath和请求登录并从此处获取一些数据,使用本教程中演示的方法。我的python脚本目前如下:来自lxml ...

回答 1 投票 0

Scrapy在哪里实际执行html请求?

我在Python3中使用Scrapy(Scrapy == 1.6.0)库。我想知道,在代码中Scrapy实际上在哪里做HTML请求?我想在那里设置一个断点,这样我就可以看到究竟是什么......

回答 1 投票 0

从使用Power BI的网站刮取数据 - 从网站上的Power BI检索数据

我想废弃此页面中的数据(以及与此类似的页面):https://cereals.ahdb.org.uk/market-data-centre/historical-data/feed-ingredients.aspx此页面使用Power BI。不幸的是,发现...

回答 1 投票 3

用Rvest刮刮转移市场

我在刮取Transfermarket时遇到了麻烦。我想在过去的20个赛季中为前5名欧洲联赛(联赛前联赛,la liga,意甲联赛,1号联赛,德甲联赛)获取数据。在这我想...

回答 1 投票 0

无法使我的python web抓取脚本与多处理一起使用

我从csv中读取了我的网址,我希望最后将结果导出到新的csv中。我使用以下导入csv的大约60个URL来自bs4 import BeautifulSoup从时间导入请求...

回答 1 投票 1

多个for循环和csv文件

我是新来的和python的新手,目前正在学习一些基本的东西,大多是刮,我遇到了一个问题,我希望你能帮我解决。我试图从...中删除一些细节

回答 2 投票 0

Python请求:发布javascript命令

所以,我正在尝试获取网站的内容,但这个内容只有在我点击“图表”链接时才出现,这是一个像这样的javascript命令:javascript:__ doPostBack('fcc1 $ dgrC $ ctl02 $ ctl00&.. 。

回答 2 投票 0

如何使Selenium只点击一个按钮而没有别的?点击不一致

我的目标是:削减用户在汗学院完成的项目数量。为此,我需要解析配置文件用户页面。但我需要点击show more来查看用户所做的所有项目......

回答 2 投票 0

在Twitter被阻止的国家/地区的网页抓取

我试图用R中的rtweet包提取一些数据。问题是在伊朗阻止了twitter,我必须使用软件来传递过滤。不幸的是,我遇到了这个错误:...

回答 1 投票 0

从动态页面检索所有汽车链接

来自selenium import webdriver options = webdriver.ChromeOptions()options.add_argument(“ - user-agent ='Mozilla / 5.0(X11; Linux x86_64)AppleWebKit / 537.36(KHTML,如Gecko)Chrome / 72.0.3626.109 ...

回答 1 投票 4

Scrapy蜘蛛之间的分布式通信

我想以协调的方式运行两只蜘蛛。第一个蜘蛛会刮掉一些网站并生成URL,第二个将使用这些地址。我迫不及待地想要第一只蜘蛛完成......

回答 2 投票 0

无法找到元素selenium webdriver

我正试图抓住以下网站:https://www.bancosantander.es/es/particulares/prestamos/prestamo-coche/simulador我要做的是:通过移动...来模拟数量和持续时间

回答 2 投票 1

将网络分组结果分组

在尝试学习如何使用Python进行网页抓取的同时,我从http://bramatno8.kvartersmenyn.se/获取了一个午餐菜单。页面构建如下: ...

回答 1 投票 1

回答 3 投票 -1

为什么我的Foreach只输出第一位数据?

一般来说,机器人和C#都是合理的新手。我正在尝试输出所有链接内部文本匹配// [@ class ='featuredBox但它只输出第一位数据。当我调试时,它实际上确实......

回答 2 投票 1

使用Selenium“错误:超出最大重试次数”,在循环中第二次调用“driver.get(url)”后,其中“url”的值每次迭代都会更改[重复]

GITHUB链接到脚本https://github.com/Lexszin/learning-stuff/blob/master/Python/Web%20Crawling/Mangadex_downloader/main.py问题描述基本上,我制作了一个下载脚本...

回答 1 投票 1

没有从div标签获得全文.BeautifulSoup.Python

我试图从div标签中提取文本。我的代码:从bs4导入请求导入BeautifulSoup url ='url'page = requests.get(url,'lxml')soup = BeautifulSoup(page.content)print(soup.find ( '格' ...

回答 1 投票 0

我正在尝试循环并刮取与BS4的链接的文本文件。我在循环的第四次迭代时遇到错误

我正在尝试遍历文本文件中的链接列表,并将信息写入文本文件。我得到'索引超出范围'错误,我不明白为什么。从bs4导入导入请求...

回答 1 投票 0

删除Beautiful Soup中的标签

我想删除html标记,但保留标记之间的文本并将其保留在列表中。这是我的以下代码:comment_list = comment_container.findAll(“div”,{“class”:“...

回答 1 投票 0

如何使用Selenium中的兄弟关系和Python一起以最可靠的方式读取div中的文本列表?

我正在尝试找到然后阅读文本列表1-5。所有具有class =“col-md-6”的div都具有相同的结构,因此我尝试使用以下文本: Header Unique Text as it is ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.