web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在VBA和webelement或selectelement中使用另外两个下拉动态?

这些天我和硒和vba一起工作,我怀疑;当我尝试使用下拉式“动态”时,我无法理解为什么我的webelement或selecelement不刷新或在丢弃时得到错误-...

回答 1 投票 0

在Web抓取中删除换行符

我正在尝试刮掉棒球阵容数据但只想返回球员名字。但是,截至目前,它正在给我 - 位置,换行符,名称,换行符,然后......

回答 4 投票 2

我可以为其他网站回收网页搭建Excel VBA脚本吗?

所以在我之前的帖子中,在这里,所有插入的人都是如此大的帮助,但遗憾的是我没有从中学到很多东西。是否可以回收其中一个脚本来刮取此页面并拉动...

回答 1 投票 -1

如何加快这个卷曲脚本的报废? [关闭]

我正在使用curl使用“PHP Simple HTML DOM Parser”来删除页面内容。我必须废弃数千页,因此我的代码需要花费大量时间执行。如果有人可以......那会很棒

回答 1 投票 -2

使用vba登录网站 - 单击提交时,un和pw消失

我正在尝试编写一个只需登录此网站的宏。我以前做了一些网络抓取,并且总是能够在其他网站上成功地做类似的事情,但我无法弄明白......

回答 2 投票 0

如何使用Python csv仅为两个特定列编写多个beautifulsoup表行?

我想使用beautifulsoup来刮取HTML,从一个表中的每一行只拉出两列。但是,每个“tr”行有10个“td”单元格,我只想要每个单元格中的[1]和[8]“td”单元格...

回答 3 投票 0

FindNextSibling()函数无法正常工作

我尝试了以下代码,此功能不起作用,给我一个错误。 “AttributeError:'NoneType'对象没有属性'findNextSiblings'”我该怎么办才能解决这个错误?我试过了 ...

回答 1 投票 0

为什么'Genre'数据没有写入我的代码中的.csv文件中

我正在尝试使用beautifulsoup学习网页抓取,我已经实现了这段代码。但是只有电影标题被写入csv文件而不是Genre,尽管它们都已被检索....

回答 2 投票 0

使用facebook api从facebook收集喜欢,分享,评论

我正在尝试使用facebook api刮一个公共Facebook页面,但每次我发送请求它返回HTTP错误400:错误请求我正在放置正确的访问令牌,这是应用程序ID +“|” + ...

回答 2 投票 0

用cheerio刮页

我目前正在尝试一个项目,我需要将我的在线商店愿望清单的内容推送到数据库,以便在anguar应用程序中显示它。我目前正在努力的步骤,......

回答 1 投票 0

如何将文本连接到列表中的项目

我如何添加 标签和 to each line in 'bullets_text' list variable Current result: 24.2MP APS-C CMOS Sensor DIGIC 6 Image Processor 3.0" 1.04m-Dot Vari-Angle Touchscreen Full ...

回答 1 投票 -1

试图用Python-3.7抓取html的特定部分,但它返回“None”

我是一个初学者,编写一些简单的Python代码来从网页中抓取数据。我找到了我想要抓取的html的确切部分,但它一直返回“无”。它适用于其他......

回答 2 投票 3

从网站获取网页链接并迭代这些链接以获取更多信息

我是Python编程的绝对初学者。我正在使用Python中的bs4模块在一些网站上练习网页抓取。在这里,我想从网站上获取链接,然后遍历它们......

回答 1 投票 0

Web刮刮讨论板

我需要从以下网站的前5页中抓取所有问题:https://www.dell.com/community/Inspiron/bd-p/Inspiron我需要返回讨论标题,作者,时间.. 。

回答 4 投票 -1

BeautifulSoup nth-of-type返回空列表。 Soup.select()[n -1]返回元素。为什么?

我正试图刮掉这个页面我的汤选择器是:test = soup.select('#bodyContent>#mw-content-text> table.wikitable:nth- of-type(4)')这应该返回第4个孩子表#cmw -...

回答 1 投票 0

我的脚本在csv文件中生成难以辨认的输出

当我运行我的脚本时,我在控制台中获得所需的输出,但是当我在csv文件中写入相同内容时,输出变得难以辨认。我试过编码=“utf-8”,但没有运气,仍然是一样的。附加链接...

回答 2 投票 -1

无法找到id python selenium

我在python中使用selinium自动为webbrowser输入用户名。但它表明它无法找到id。我试过bing网站。它很棒。但在这里,它失败了。这是......

回答 1 投票 2

如何使用Selenium和BeautifulSoup进行循环

我有一个字符串列表,我想迭代循环。但是,我不知道如何为此任务创建for循环。该功能从网站上删除信息。表有几十个......

回答 2 投票 1

如何获取包含无法通过requests.get获取的标记的数据?

我想从下面的主页获取我想要的信息。 HTTP://ticket.cgv.co.kr/Reservation/Reservation.aspx MOVIE_CD = MOVIE_CD_GROUP = PLAY_YMD = THEATER_CD = PLAY_NUM =&...

回答 2 投票 0

Word-R Web Scraping后获取文本

几个星期前,有人在这里帮助我获得了Notable Names数据库中所有链接的列表。我能够运行此代码并获得以下输出库(purrr)库(rvest)...

回答 2 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.