web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

根据字符串的特定部分从列表中选择数据[关闭]

非常感谢您帮助我的努力!我正在尝试我的一些小型刮削项目。我有一个网页链接列表,现在我只想选择与产品相关的链接...

回答 1 投票 -1

使用BeautifulSoup和Python获取元标记内容属性

我正在尝试使用python和美丽的汤来提取下面标签的内容部分:

回答 2 投票 23

通过VBA从网页上的下拉列表中选择一个项目[复制]

我想要一个VBA代码在XE货币转换器网站上转换货币并给我结果。我没有得到如何从列表中选择货币。下面是我的代码:Dim ie As InternetExplorer Dim ...

回答 1 投票 1

创建包含空和填充部分的混合列表列表?

使用BeautifulSoup,我试图创建一个列表列表,它使用下面的HTML代码示例返回空列表以及它们出现的序列中的变量... [

回答 1 投票 0

selenium登录提交失败

我无法通过Python使用Selenium登录网站。我是网络抓取的新手,作为学习过程的一部分,我正试图通过网络抓取我的美国帐户活动...

回答 1 投票 0

如何从BeautifulSoup中的可切换选项卡获取内容?

网站上有4个可切换的标签,我设法从第一个标签中提取,但无法弄清楚如何从其他三个标签中提取,因为需要点击标签(我认为)。 ...

回答 1 投票 0

用Python / beautifulsoup刮表

我正在试图抓住机场名称的数据。我使用下面的代码,但我只得到2行而不是数据,从bs4导入请求导入BeautifulSoup url ='http://www.airlineupdate.com / ...

回答 3 投票 -1

来自R的在线网站cgi的数据抓取

目标:获取特定潮汐站全年的潮汐预测数据(参见下面的示例)。尝试:来自各个帖子的提示,包括关于天气数据的交流,这似乎是最...

回答 1 投票 0

如何使用仅带有无名密码字段的登录表单来搜索特定网页,然后将值提交给ajax?与Selenium?

我是Python Scrapy的新手,到目前为止:导入scrapy类ExampleSpider(scrapy.Spider):name ='example'allowed_domains = ['flashfurniture.com'] start_urls = ['http:// ...

回答 1 投票 0

Python Web Scraping格式清理

还在使用带有beautifulsoup的python代码学习网页抓取,并且偶然发现了格式化问题。代码从网站上提取正确的数据,但它没有把它放在...

回答 1 投票 0

防止网站被刮伤

有一个wordpress网站托管在http://www.vibrantneo.org,目前正在以某种方式克隆到http://vibrantneo.123productpages.com/。非常奇怪的是这个特定的域名(http:// ...

回答 2 投票 4

网页搜索电话号码

首先,我是编程的新手,我的英语不是最好的。我在Windows 10 Pro上使用Python 3.6。经过一些试验和错误,我终于找到了如何从...中废弃数据

回答 1 投票 2

处理Web抓取中的类多输入

嗨,我试图废弃值=“36”,但我不知道如何处理这个类有多个输入的事实。我的代码如下:## cdkitchen.com url ='http://www.cdkitchen ....

回答 2 投票 0

如何更改python数组的编码?

我使用以下代码从中文网站上刮取表格。它工作正常。但似乎我存储在列表中的内容没有正确显示。从bs4导入导入请求...

回答 1 投票 1

如何使用Python和Selenium分页来抓取页面

我一直试图在网站http://merolagani.com/CompanyDetail.aspx?symbol=ADBL的“价格历史”标签下废弃该表。我已经使用Selenium来自动化这个过程但是不能......

回答 1 投票 -8

如何用scrapy框架抓取网页?

我是webscrapping的新手。我已经开始学习scrapy框架了。我介绍了scrapy的基本教程。现在我想废弃这个页面。根据本教程,要获得整个html页面包含...

回答 1 投票 0

无法从网页上获取少量项目

我在python中编写了一个与selenium结合使用的脚本来解析网页中的一些项目。无论如何我无法让它工作。我所追求的项目(可能)在iframe中。我试着改变它......

回答 1 投票 5

重定向上的httpclient抛出异常

我正在尝试使用HttpClient下载一个网页,这是我的代码:private async Task _doRequest(string url){string result = string.Empty; var client = HttpClient;使用(var ...

回答 1 投票 1

RSelenium:使用Chrome下载文件时出错

我正在使用RSelenium下载一些.xls文件。我能够使用以下代码设置服务器获得一个有点可通过的解决方案,它指定在我...时不创建弹出窗口...

回答 1 投票 1

CSS Selector获取元素属性值

HTML结构是这样的: First one This is my selector: m_URL = sel.css("td.hey a:nth-child(1)[href] ")....

回答 2 投票 8

© www.soinside.com 2019 - 2024. All rights reserved.