web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用Excel VBA单击IE中的js按钮?

我想在Excel Vba中创建一个代码来帮助我单击网站中的js图像按钮。这是我尝试过的。子测试()Dim即As Object Set ie = New InternetExplorer WebPage =“http://myweb.com”...

回答 2 投票 0

错误 - 无法获取网址:https://www.google.com/search?num = 20&q = searchquery“

背景我正在使用Google表格检查Google搜索中是否出现一系列字符串:= IMPORTXML(CONCATENATE(“https://www.google.com/search?num=20&q=”,CHAR(34),A1, CHAR(34)),...

回答 2 投票 1

使用Scrapy刮取相关新闻

我想使用Scrapy废弃Snopes事实检查网站。在这里,我想根据用户给出的输入找出相关新闻。用户给出一个单词,Scrapy爬虫将返回相关新闻。为......

回答 1 投票 0

如何从我从网站上抓取的数据创建数据框?

我正试图从工作发布数据中抓取网站,输出如下:[{'job_title':'初级数据科学家','公司':'\ n \ n BBC',摘要':“\ n我们......

回答 2 投票 1

为什么我在使用硒时只能获得首页数据?

我使用python包selenium自动点击“加载更多”按钮,这是成功的。但是为什么在“加载更多”之后我无法获取数据?我想使用python从imdb抓取评论。 ...

回答 2 投票 2

如何使用Jsoup通过HTTPS连接?

它在HTTP上运行良好,但是当我尝试使用HTTPS源时,它会引发以下异常:10-12 13:22:11.169:WARN / System.err(332):javax.net.ssl.SSLHandshakeException:java.security ....

回答 9 投票 22

无法使用puppeteer从网页中获取名称

我在节点中创建了一个与puppeteer结合的脚本,以获取填写网页输入时填充的名称。以下是如何获得该名称 - 打开该网页后,......

回答 1 投票 0

Scrapy - 刮掉所有物品而不是1件物品

我需要刮掉所有物品,但只有一件物品刮掉。我的代码工作正常,但当我将它转移到其他项目,这是相同的代码,这发生我不知道为什么我需要得到所有...

回答 1 投票 0

无法刮擦这个网站。如何从这个网站抓取数据?

我不能从这个网站上抓取数据。我试过其他网站,但它可以与其他网站...从bs4导入BeautifulSoup来自urllib.request import urlopen response = urlopen(“https:// www ....

回答 2 投票 -2

使用rvest或RSelenium在框架内创建自动webscrape表

我知道有很多资源/问题可以解决这个问题,但我已经尝试了好几天,似乎无法弄明白。我以前有过webscraped网站,但这个是......

回答 1 投票 1

查找HTML按钮元素引用(类,标记等)以便VBA自动单击?

我正在尝试从我们公司的一个使用HTML的公司内部网站提取数据。我试图点击的按钮是一个CSV按钮,但尽管尝试了不同的方法,我无法让VBA找到这个...

回答 1 投票 1

从网站获取html字符集 - 非UTF-8格式的元标记

我尝试检索封装在中的编码 一个HTML网站。在上面给出的html我想...

回答 2 投票 1

我怎样才能从网站“flipkart.com”中删除评论

我无法理解选择哪个类,我尝试了不同的选择器类,但它返回空列表我尝试了以下代码。从bs4 import导入请求为req ...

回答 1 投票 -1

如何在python 3中获取此站点中的json数据?

我的工作基本上是: - 在这个网站上进行访问“https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php” - 填写2个表格(AC - Acre和Bujari,for ...

回答 1 投票 1

recaptcha 3如何知道我正在使用selenium / chromedriver?

我很好奇Recaptcha v3是如何工作的。特别是浏览器指纹识别。当我通过selenium / chromedriver启动chrome实例并对ReCaptcha 3进行测试时(https:// recaptcha-demo ....

回答 2 投票 1

无法在硒中找到元素

我正在尝试使用Selenium WebDriver在网站上输入ID和密码,但我的代码不起作用。它似乎无法找到一个元素。我检查了HTML代码并找到了值。这是我的 ...

回答 1 投票 1

运行Scrapoxy和数字海洋的问题

我正在尝试用数字海洋运行Scrapoxy。我成功创建了一个Droplet图像并配置了Scrapoxy。当我启动Scrapoxy时,它会继续创建一个新实例并绕过最大限制。它......

回答 1 投票 0

使用scrapy发布请求/表单提交会导致错误404

我正在学习如何使用scrapy构建一个蜘蛛来抓取这个网页:https://www.beesmart.city。要获得访问权限,必须在此处提交表单:https://www.beesmart.city/login ...

回答 1 投票 0

美丽的汤 - 空白屏幕很长一段时间没有任何输出

我是python的新手,我正在开发基于抓取的项目 - 我应该从包含特定搜索词的链接中提取所有内容并将它们放在csv文件中。作为一个 ...

回答 2 投票 -2

单击通过selenium链接

我正在尝试通过Selenium做一些webscraping。我的问题很简单:你如何找到一个链接然后如何点击它?例如:以下是我想要网页的HTML -...

回答 4 投票 26

© www.soinside.com 2019 - 2024. All rights reserved.