web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

用汤选择美丽汤中的第二个孩子？选择？

我有：名称约翰彼得 now what's the easiest way to get the Peter here if I have h2 tag already? Now I've tried: soup.select(...

python web-scraping beautifulsoup

回答 3 投票 12

使用R来废弃文本的html_nodes

其实我正在尝试获取此代码的sku号码（此号码 - > 111653240199）：

html r web-scraping

回答 1 投票 0

使用selenium选择导航下拉菜单

#inmostialization for beautifulsoup to access site for per game stats url =“https://stats.nba.com/players/traditional/?sort=PTS&dir=-1&Season=2018-19&SeasonType=Regular%20Season”d = ...

python pandas selenium web-scraping beautifulsoup

回答 1 投票 0

如何使用Spidermon进行Scrapy历史输出比较

所以Scrapinghub正在发布Scrapy质量保险的新功能。它说它具有历史比较功能，它可以检测当前的刮擦量是否仅低于...的50％。

python web-scraping scrapy qa spidermon

回答 1 投票 1

Web爬虫 - Windows应用程序

我想构建一个带有UI的Web爬虫，允许用户输入一系列部件号，然后爬虫将挖掘大约6个URL（制造商/供应商站点）并撤回数量......

python web-scraping automation web-crawler

回答 1 投票 2

无法从网页解析网站链接

我已经在python中使用selenium创建了一个脚本，以便在网站的联系人详细信息中搜索网站地址。但问题是没有与该链接相关的网址（我可以点击...

python python-3.x selenium selenium-webdriver web-scraping

回答 1 投票 1

无法使用Python beautifulsoup清除不需要的字符串

当我在soup.select（'。special-price'）中运行以下价格= [price.text.strip（）价格时] price = prices.replace（u'\ xa0'，u''）打印（价格）我得到'list'对象没有属性'replace'...

python python-3.x web-scraping beautifulsoup

回答 3 投票 0

在VBA中使用ReactJS选择HTML下拉列表

我正在尝试使用VBA从使用ReactJS的HTML网站中选择一个下拉项。对于此示例，我们可以使用以下网站：https：//jedwatson.github.io/react-select/

html excel vba reactjs web-scraping

回答 1 投票 2

根据特定标签在Web上刮取并打印所有名称和标签

我的HTML链接上的所有名称都有一个标签好吗？（我使用漂亮的汤）如果他们的标签=='特定字符串'确定，我想废弃并打印所有带有标签的名称？我的班级名称是div我的id names ='...

python web-scraping beautifulsoup python-requests

回答 1 投票 -2

想要废弃所有会员资料链接以获取会员详细信息

来自bs4 import BeautifulSoup导入请求r = requests.get（'http://medicalassociation.in/doctor-search'）soup = BeautifulSoup（r.text，'lxml'）link = soup.find（'table'，{' class'：'tab-gender'}）link1 ...

python web-scraping beautifulsoup

回答 2 投票 1

从R中的WebPage迭代地进行Web Scraping

我有一个包含243页的表的网页。每页有34行。对于第1页，URL的结构如下所示.http：//this-site.com/service/？currpage = 1。我想得到所有......

r xml web-scraping rvest

回答 1 投票 0

Scrapy无法识别xpath

我尝试从此页面https://octopart.com/electronic-parts/integrated-circuits-ics获取数据，但是从Specs按钮获取数据。我尝试使用此代码获取产品的名称，但它不起作用。 ...

python xpath web-scraping scrapy

回答 2 投票 0

无法使我的脚本异步工作

我在vba中编写了一个脚本，用于从torrent站点中删除不同的电影名称及其类型。虽然名称和流派出现在它的登陆页面中，但我创建了解析相同的脚本...