web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

为什么我的函数只在其代码的开头工作?

我在这里遇到的问题是,显然,函数执行的唯一代码行是库(rvest)库(RCurl)和url

回答 1 投票 0

Python Selenium搜索[object Text]

这是我的硒代码。 sourcesearch = driver.find_element_by_xpath('// * [@ id = \“Table_Exame \”] / tbody / tr [1] / td / text()[1]')结果是 - selenium.common.exceptions .. ..

回答 2 投票 0

Scrapy spider不会在start-url列表上进行迭代

我正在尝试构建一个电子邮件抓取工具,它接收一个网址的csv文件,并使用电子邮件地址返回它们;包括在此过程中被删除的其他网址/地址。我似乎无法......

回答 1 投票 0

我想要链接和每个链接的所有内容

我在报纸网站上搜索了一个关键词(网络安全),结果显示了大约10篇文章。我希望我的代码抓住链接并转到该链接并获取整篇文章并重复此...

回答 1 投票 1

如何从scrapy得到适当的回应?

我试图从这家公司注册中搜索一些搜索结果,但是当我试图刮掉公司名称时,我的结果似乎没有正确返回,它就像公司名称项目被分成2 ...

回答 2 投票 0


尝试启动Firefox时出现Python selenium错误

尝试在ipython笔记本中使用Selenium打开Firefox时出错。我环顾四周,发现了类似的错误,但没有什么能与我得到的错误完全匹配。任何人......

回答 6 投票 16

如何使用Excel VBA打开URL列表并在我的辅助监视器上保存每个URL的屏幕截图

我有一个范围A1:A60的URL列表。我想打开每个,截取网站截图,关闭网站并以jpg格式保存截图。我正在使用我的辅助显示器拍摄...

回答 1 投票 2

检测网站是否在Node.js中有电子商务

我需要以编程方式检测一个网站是否有一个电子商务平台/系统我不需要知道哪一个,我只需要知道该网站是否有一个。 (我有很多网站,所以我可能......

回答 1 投票 0

如何将特定链接存储为列表,然后单击它们

我一直在关注如何网页抓取网页的教程http://kanview.ks.gov/PayRates/PayRates_Agency.aspx。可以在这里找到turorial:https://medium.freecodecamp.org/better-web -...

回答 1 投票 1

无法使用selenium和Python连接到网页

我正在尝试连接到特定网页,但它没有单击“登录”按钮:browser.get('https://www.tsago.gr/eshop/account')print('Browser Opened')username = browser.find_element_by_id (...

回答 3 投票 1

Python Web刮股票图表,当找不到股票代码时代码卡住

我有一个股票代码列表来运行这个网站,然后希望获得股票图表的链接但是,当一个符号出错时,网站重定向到另一个页面,并...

回答 3 投票 -1

在python中提取Meta关键字?

我写了一个从网站上提取关键字的代码。有些网站有关键字信息,但我的程序返回空列表。我们怎么能解决这个问题呢?网站是代码。 ...

回答 2 投票 0

Google搜索结果抓取会导致“服务不可用”错误

我正在尝试使用Node.js中的Cheerio来搜索Google搜索结果。我一直收到“503 - 服务不可用”错误。一些请求给我正确的响应,但然后弹出这个错误。我做了......

回答 1 投票 1

带有哈希字符的XMLHTTP

我正在尝试用xmlhttp和VBA抓取一个网站。 Url有一个哈希(#)符号,被VBA误解...这与此处解释的问题相同:XMLHTTP中的错误获取请求...

回答 1 投票 1

在网站仍在加载时,网站数据输入自动出错

我有代码从ThisWorkbook中的多个列中获取数据,并在Internet Explorer的网站中放入各种字段。点击第1行(搜索按钮)后加载网站。那么......

回答 3 投票 1

将Jest与Puppeteer一起使用:评估失败:ReferenceError:未定义cov_4kq3tptqc

我正在尝试使用Puppeteer获取页面的描述,我有一个高阶函数,它为此函数提供页面对象:export const checkDescription = async page => {const ...

回答 1 投票 0

R中的Web Scraping(使用rvest) - 循环多年

我不熟悉R中的网络扫描。我正在使用rvest我可以通过手动进入每年获得个人年份的匹配记录,如下所示; ## URL http://stats.espncricinfo.com/ci/engine / ...

回答 1 投票 1

获得给定ASIN的最低4个价格

我在Amazon Web服务GetLowestOffersPriceListings上找到了这个API,我也有我的Acess Key和Secret,我无法使用。 ASIN = ['B07CGKVJ34','B07HJRQXNY'] url ='https:// mws ....

回答 1 投票 1

刮HTML和JavaScript

我正在开展一个项目,我需要抓取几个网站并从中收集不同类型的信息。信息,如文本,链接,图像等。我正在使用Python。我有 ...

回答 4 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.