web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

RSelenium刮削返回奇数结果

我正在尝试使用RSelenium搜索一些新闻来源搜索页面。这是我的代码:library(rvest)库(RSelenium)#open浏览器rD

回答 1 投票 0

刮痧请求

在我的代码中有什么问题,我尝试获取相同的内容,如https://koleo.pl/rozklad-pkp/krakow-glowny/radom/19-03-2019_10:00/all/EIP-IC--EIC- EIP-IC-KM-REG,但结果与我想要的不同。 ...

回答 2 投票 -3

使用PHP Web爬虫查找某些没有特定元素的单词

我正在关注http://simplehtmldom.sourceforge.net/使用php制作网络抓取工具,但我很混淆如何在不指定元素的情况下搜索单词。所以单词搜索是基于所有...

回答 3 投票 2

当我浏览循环时,这个网页是如何阻止我的,而不是直接访问它时?

我试图刮一组网页。当我直接从一个网页上抓取时,我可以访问html。但是,当我遍历pd数据帧来刮取一组网页时,甚至是......

回答 1 投票 0

在Web中输入用户和密码会生成错误462找不到远程服务器计算机

我想连接到要求输入用户名和密码的网页。我需要一个放置用户和密码的宏,然后按一下进入第一个网页。登录网络后,导航至...

回答 3 投票 1

如何使用VBA从后续页面抓取mailto

我试图从html文件中抓取mailto(href),但我无法“击中”它。欢迎任何建议。 ...

回答 1 投票 0

Firefox更新后,Selenium(Python3)不会转到目标URL

下面是我的Python刮刀代码的开始,它在过去一年中成功地提取了数据。我的FireFox浏览器(版本65.0.2 64位)最近更新,现在代码不会直接...

回答 1 投票 0

使用vba将Excel中当前帐户的余额复制到Excel

在论坛的帮助下,我创建了一个宏vba来连接到我的银行网站,输入用户名和密码并正确登录。一旦我用vba的宏登录,我就去...

回答 1 投票 0

美丽的汤,如何刮取多个网址并将其保存在csv文件中

所以我想知道如何抓取多个网站/网址并将它们(数据)保存到csv文件中。我现在只能保存第一页。我尝试了很多不同的方法,但似乎没有用。 ...

回答 2 投票 0

美丽的汤和熊猫的UTF-8错误

下面是一个Python美丽的汤刮刀,曾经成功地从MLB.com上刮下团队名单。现在,当我尝试运行代码时,出现以下错误。 UnicodeDecodeError:'utf-8'编解码器......

回答 1 投票 1

multipart-form-data,POST方法,页面中有多个表单

问题我正在尝试使用request的python lib在页面中进行抓取,但是我遇到了错误(例如Bad request或Method不允许)。该页面有两种形式:一种是get,另一种是......

回答 2 投票 0

Twitter API - 如何获得OAUTH_FILE?

我去http://twitter.com/apps/new创建一个应用程序并获取这些凭据的值 - CONSUMER_KEY,CONSUMER_SECRET,OAUTH_TOKEN和OAUTH_TOKEN_SECRET。一切都很好。但是,当......

回答 1 投票 1

如何使用Mandrill在Scrapy Spidermon中发送电子邮件报告

目前,Scrapy Spidermon扩展仅显示使用Amazon Simple Email Service发送电子邮件的示例。是否可以使用Mandrill?如何?

回答 1 投票 1

如何改进这个Web爬虫逻辑?

我正在使用一个网络爬虫,它将使用请求和bs4仅抓取内部链接。我有一个粗略的工作版本,但我不知道如何正确处理检查链接是否已被抓取...

回答 1 投票 0

如何访问以下代码中的第二个跨度?

我想访问带有日期的跨度但是当我写article.h3.span时,它给出了第一个跨度(/)。如何使用日期访问跨度?

回答 3 投票 -1

由于代理设置不正确,Excel宏无法正常工作

问题描述:我的同事在一个月前创建了一个基于Excel的应用程序,在他的笔记本上运行正常。奇怪的是,同一个工作簿不适用于任何其他人的PC。在里面跑...

回答 1 投票 1

从网站中的多个页面中提取电子邮件并列出

我想使用python从展览网站上提取参展商的电子邮件。该页面包含参展商的超文本。点击参展商名称后,您将找到参展商......

回答 1 投票 -3

Vba宏在家用计算机上运行并在工作计算机上获得错误2147417848

在论坛的帮助下,我创建了一个连接到我的银行网站的宏,填写用户名和密码并输入我的帐户。宏复制帐户余额并将其粘贴到Excel ....

回答 1 投票 2

与gitlab通过golang刮故障

我是编程的新手,我需要帮助。试着在golang上编写gitlab scraper。当我试图在多线程模式下获取有关项目的信息时,出了点问题。这是代码:...

回答 1 投票 1

如何从有角度的网站中提取文本信息?

我正在尝试从这个网站中提取某些文本字段,但是从角度来看是新的。我正在使用selenium来构建这个web scrapper。我注意到确切的文本值没有存储在html代码中。能够 ...

回答 1 投票 -2

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.