web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

为什么当我从网页上抓取价格时我会得到一个?用python?

我刚刚创建了我的第一个教程文件,用于从网页上搜索价格。我从urllib import parse url ='https:// www ....执行以下导入urllib.request来自bs4 import BeautifulSoup。

回答 1 投票 1

如何在google chrome上的mac os上找到下载文件的URL?

我想从政府网站上下载一堆文件,每当我尝试保存下载URL链接时,它都会重定向太快,文件下载。我需要URL模式......

回答 1 投票 0

我想废弃这部分

我试图删除屏幕截图中的每个面板,但我没有得到正确的xpath来废弃这些部分。任何人都可以帮助我。 HTTPS://www.seloger.com/annonces/achat/appartement/paris-15eme-75 / ...

回答 1 投票 -6

从网页上刮取特定元素

你好以下每个人都在以下链接https://www.motionindustries.com/productDetail.jsp?sku=00097433我能够除了以下所有内容:`Mi Item#:,Mfr描述:,规范使用......

回答 1 投票 0

从Beautifulsoup4获取字符串的问题

所以这是我的代码我正在尝试从bs4导入工作导入请求BeautifulSoup url ='https://digitalcoinprice.com'source_code = requests.get(url)plain_text = source_code.text soup = ...

回答 2 投票 1

使用R从网页中提取表格

我试图使用R从这个页面中提取所有表格,对于html_node,我已经通过了“table”。在控制台中,输出很奇怪。数据在网页中可用,但在R控制台中显示NA。请 ...

回答 3 投票 0

确实使用BeautifulSoup python的前100名工作结果

我是python网络报废的新手,我想从确实刮掉前100个工作结果,我只能抓第一页结果,即前10名。我正在使用BeautifulSoup框架。这是我的代码......

回答 3 投票 1

使用RSelenium:找不到Java

我正在尝试使用RSelenium包在R上执行代码来进行一些webscraping,但是我在第一步就被阻止了。加载库后,我尝试运行这行代码:rmDr

回答 1 投票 0

在puppeteer中获取具有特定类的Image src

我有以下代码,我将所有src存储在一个数组中,我想只存储img,类名为xyz const imgs = await page。$$ eval('img [src]',imgs => imgs.map( img => img ....

回答 1 投票 0

bs4 python找不到文本

我有一个html文件,我通过美丽的汤抓住。 html的摘录在这个问题的底部。我正在使用美丽的汤和硒。有人告诉我,我只允许......

回答 2 投票 3

Selenium Python无法定位元素

我正在尝试从这个网页收集每个产品变体的价格信息:https://www.safetysign.com/products/7337/ez-pipe-marker我正在使用Selenium和FireFox与Python 3和Windows .. 。

回答 2 投票 1

为什么我无法通过使用网络抓取从本网站获得结果

我使用python 3.6.5,我的操作系统是macOS 10.13.6。我正在学习Web Scraping,我想从这个网站上获取数据(https://www.lagou.com/jobs/list_python?glagWords =&fromSearch = true&...

回答 1 投票 -1

多次从网站上搜索信息

新手程序员如此提前,抱歉,如果我写的是措辞严厉或者只是简单的愚蠢。我正在尝试从网站上抓取信息并将结果存储在数据库中。目标是让所有人......

回答 1 投票 0

使用beautifulsoup python在特定页面中获取标记时出现问题

我试图通过以下代码从这个页面www.toctoc.com获取每个帖子的信息:page = requests.get('website_url')#website url太长汤= BeautifulSoup(page.content,'html.parser' )...

回答 1 投票 2

beautifulsoup中的python find_all_next找不到字符串

我正试图从Instagram页面获取用户名。我应该使用我在“data = soup.find_all('script')[3]之后得到的数据的一部分”它看起来像这样:Blockquote(script type =“text / ...

回答 2 投票 1

scrapy-spash:SplashRequest响应对象在scrapy crawl和CrawlerProcess的调用之间有所不同

我想使用scrapy-splash来获取目标页面的html和截图png。我需要能够以编程方式调用它。根据spashy doc,指定endpoint ='render ....

回答 1 投票 1

使用python查找链接页面到目标页面

我正在创建一个程序,在Wikipedia上给出起始页面和目标页面,通过每页上的超链接从起始页面导航到目标页面。例如,如果我们有......

回答 2 投票 3

需要帮助将R中的“[some words] [space] [more words]”替换为[some word]

我有以下数据。公司1 Progressive Corp. 2 Travelers Companies Inc. 3 Progressive Finance Corp. 4苏黎世保险集团(3)5苏黎世金融服务有限公司6苏黎世有限公司...

回答 1 投票 0

Python BeautifulSoup'NavigableString'对象没有属性'get_text'

这可能看起来很简单,但我无法让它工作。刚刚开始学习刮刮并遇到了这个问题。尝试在python REPL中的代码,它似乎工作,...

回答 2 投票 1

如何逐步向下滚动Python Selenium

嗨,大家好,我是Selenium和Python的新手。我只是在抓取网站pagalguy网站。我知道如何向下滚动到页面底部,但我需要的是逐步向下滚动以便...

回答 4 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.