web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何通过Python中的Selenium从相对于多个分隔符动态更改的字符串中检索子字符串

我想知道是否有可能删除部分刮掉的字符串:Wujek Drew / Uncle Drew into Uncle Drew当然,因为它是网络抓取,所以标题每次都会不同,所以我能...

回答 1 投票 1

python selenium进入搜索查询然后等待

actions = ActionChains(driver)actions.send_keys(search_query + Keys.ENTER)actions.perform()等待页面加载的代码src = driver.page_source如何实现这个?我想发送......

回答 1 投票 2

在网页上提取突出显示文本

我想知道是否有从网页上的段落中提取突出显示的文本。经过长时间的搜索。我遇到过这个模块https://python-docx.readthedocs.io/en/latest/但是......

回答 3 投票 1

无法从div部分提取数据

我想从后面的url中提取主机名和Ip,但它什么都不返回。从bs4导入请求导入BeautifulSoup url =“https://mxtoolbox.com/SuperTool.aspx?action = mx%...

回答 1 投票 0

无法根据来源的内容写日期

我已经在python中编写了一个与selenium结合使用的脚本来解析网页中的一些动态内容并相应地将它们写入csv文件。以下脚本可以无误地执行此操作,但...

回答 1 投票 1

谷歌搜索“龙球壁纸”上的python web抓取

从urllib.request导入urlopen从bs4导入BeautifulSoup导入urllib从字符串导入随机导入ascii_lowercase def makesoup(url):thepage = urlopen(url)soupdata = BeautifulSoup(...

回答 1 投票 0

使用Selenium和Python刮取文本值

对于ERP系统中的每个供应商(供应商总数= 800+),我正在收集其数据并将此信息作为pdf文件导出。我在Python中使用了Selenium,创建了一个名为Scraper的类,并且......

回答 3 投票 0

Python如果String包含在href中

这是我的python代码。 r = requests.get(“myurl”)data = r.text soup = BeautifulSoup(data,“lxml”)texttmp =“”for soup.find_all('a')中的链接:image = link.get(“href” )如果图像中的“.jpg”:...

回答 2 投票 1

如何将bs4.element.Tag转换为JSON字典?

我正在使用Beautiful Soup 4来网页抓取配方的HTML页面,而application / ld + json脚本有内容:['\ r \ n {\ r \ n“@context”:“https:// schema .org /“,\ r \ n”@type“:”食谱“,\ r \ n”名称“:...

回答 2 投票 0

使用BeautifulSoup使用Spry框架构建的Scrape表

这个页面包含我要用BeautifulSoup报废的表:Cacao的味道 - 巧克力数据库该表位于一个id为spryregion1的div内,但是它找不到...

回答 1 投票 0

webscraping:使用python:airbnb listing从html中的xpath中提取url

我正在尝试使用python 3库从AirBnb中的城市页面中提取列表的URL。我熟悉如何使用Beautifulsoup刮取更简单的网站并请求库。网址:'https:...

回答 1 投票 0

在Python中查找字符串并在其旁边检索文本

我检索了以下源代码:class =“show_small”>日期:2018-05-15 11:30:30 价值:XXX

回答 1 投票 0

为什么python抓取结果与浏览器不同

我可以在浏览器中浏览页面https://www.xiami.com/artist/O9fc383,但是当我通过chrome驱动程序解析它时,我得到了不同的来源,如下所示我无法抓取该页面,我该怎么办?没有......

回答 1 投票 0

从vba的下拉框中选择各种选项

如何更改客户下拉菜单的选项,如下面的HTML示例所示,然后单击提交?我需要更改选定的值:Diamond State Generation Partner(Brookside)......

回答 2 投票 3

Python:url列表中的第二个url返回None

我正在使用漂亮的汤来搜索网址列表。说我从bs4导入BeautifulSoup得到一个名为卫星的数组中的URL列表作为bs导入pandas作为p import numpy作为np import ...

回答 1 投票 0

通过JavaScript动态生成的刮刮数据

我尝试使用PhantomJSDriver来抓取这个URL:http://www.tsetmc.com/loader.aspx ?ParTree = 151311&i = 67126881188552864 1)首先,在这个URL中我们必须点击名为的上层蓝色链接:سابقه...

回答 1 投票 2

获得Beautiful Soup的第二个属性

我有这个html和一系列图像来获得这个结构:

回答 1 投票 0

用scrapy链接请求

现在我可以看到scrapy同时下载所有页面,但我需要的是链接人员和extract_person方法,这样当我获得方法人员的网址列表时,我会关注所有这些...

回答 1 投票 1

使用importXML与php填充网站并刮取google工作表

我正在尝试使用IMPORTXML从这个网站导入数据到googlesheet http://14.139.247.11/citywx/city_weather.php?id=42488我想在最低温度(oC)下抓取数据加载数据...

回答 1 投票 0

无法使用R中的download.file下载网页

我尝试了以下代码来下载html文件。代码运行没有错误,但返回的文件非常小(~2kb),无法打开。网址

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.