web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用scrapy中的try / except子句无法获得所需的结果

我在scrapy中编写了一个脚本,通过get_proxies()方法使用新生成的代理来生成代理请求。我使用请求模块来获取代理,以便在脚本中重用它们。我......

回答 1 投票 0

使用BeautifulSoup抓取网站时显示符号

我是网络抓取的新手。我试图解决有关符号显示方式的问题。 BeautifulSoup习惯于抓取网站,但是如何抓取符号存在问题。这是......

回答 1 投票 1

我应该如何使用BeautifulSoup将多个页面的表附加到一个CSV中?

什么不起作用只有最后提取的页面保存在CSV中,而不是保存在所有提取的页面中。什么是工作单个页面的所需内容进入CSV就好了。加载“下一个”......

回答 2 投票 2

BeautifulSoup findAll不返回网页上的值

我想在雅虎体育网页上搜索个人游戏页面。这是我想要抓取的网页类型的一个示例:https://sports.yahoo.com/nfl/atlanta-falcons-philadelphia-eagles -...

回答 1 投票 0

使用BeautifulSoup按src标签搜索元素

假设我正在抓取一个网页,我想在网页上选择某个图像。就像你可以根据他们的类名找到元素一样,我想通过它的src标签选择一个图像。我怎么样......

回答 4 投票 0

我应该如何使用python和BS4从网页中正确提取和解析主题数据?

我正在寻找一个网络爬虫,从论坛收集主题行。一旦有了,我想将每个主题显示为一个新行,每行前面都有一个[*]。使用BeautifulSoup,我......

回答 2 投票 1

如何在selenium python中使用XPATH获取图像的src

嗨我需要在selenium src.getAttribute(“src”)中使用XPATH的图像的src img-src = driver.find_elements_by_xpath(“// img [contains(@class,'_ 3me- _3mf1 img')]”)x = img -src.getAttribute(“src”)print(x)...

回答 2 投票 0

使用多个表而不是类来刮取网站

我需要刮下标有'Fielding'的底部桌子。我无法通过网站上的第一个表格。该网站有一些奇怪的HTML,似乎不容易刮。链接在这里我尝试使用该表...

回答 2 投票 2

触发时,Click事件不执行任何操作

当我在木偶操纵者中以非无头模式触发.click()事件时,没有任何反应,甚至没有错误。“非无头模式,所以我可以直观地监视被点击的内容”const scraper = {test:.. 。

回答 2 投票 1

如何使用BeautifulSoup4在Amazon中打开链接?

问题:“linkElems”列表似乎是空的怀疑导致问题的原因:我认为我告诉它抓取的标签是错误的程序功能:在命令中搜索Amazon.com的参数...

回答 1 投票 -3

Beautifulsoup无法找到名称中带有连字符的类

我在运行Python 2.7.8的MacOSX上使用BeautifulSoup4。我无法从以下HTML代码中提取信息

回答 3 投票 1

如何在try / except循环中创建条件?

我正在webscraping两个json文件的数据。第一个有一些我可以收集的数据。第二个没有所需的数据。我想要存储“NA”。我的问题是我不...

回答 2 投票 0

如何通过网络抓取将网站表数据写入CSV

我是网络抓取新手我试图在登录后从网站上删除表格数据。我希望将第二列乘以10.目前该表正在写入csv,但实际上我想要工作...

回答 1 投票 0

如何解析div并将每个标记内容放在不同的行中?

我正在尝试刮取一个配方网站,其成分分为不同的类别,由HTML中的标记描述,如下所示:

回答 2 投票 1

在循环(更改日期)中从网站提取数据到工作表

首先,我是VBA的新手,想在Excel中建立一个天气统计数据。非常感谢帮助!为此,我需要来自多个网站的数据,其中包括...的信息。

回答 1 投票 1

Excel Web查询提交问题

我正试图从http://www4.bcb.gov.br/pec/taxas/port/ptaxnpesq.asp?id=txcotacao获取数据(美元汇率)到excel电子表格中。我试图粘贴为可刷新的Web查询,但是,...

回答 1 投票 1

在VBA WinHttpRequest上捕获超时

我想设置Timeout值并在使用VBA和Excel时发生此事件。到目前为止,我尝试使用XMLHTTP60和WinHttpRequest:设置XMLHTTP = CreateObject(“WinHttp.WinHttpRequest.5.1”)...

回答 1 投票 1

从ajax驱动的弹出框中包含的工具提示中截取文本

我知道以前曾问过类似的问题,但似乎没有一个问题适用于这种特殊情况。我在几个网站上遇到过它,所以对于这个问题,我随机选择了SO自己标签的第一页......

回答 1 投票 2

Web一次刮取多个JS页面

我试图webscrape一个网页,其中有多个页面由Javascript呈现。我正在使用BeautifulSoup和Selenium。我有一个脚本,但只适用于网站的第一页....

回答 1 投票 1

正则表达式包含空格的所有内容不要使用RegExps来解析HTML

我需要一个正则表达式模式所有字符,包括空格,而不是PHP中的变量。 一些单词

回答 2 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.