web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

无法使用Scrapy刮取下一页内容

我想从下一页中删除内容,但它没有进入下一页。我的代码是:import scrapy class AggregatorSpider(scrapy.Spider):name ='aggregator'allows_domains = ['...

回答 1 投票 0

有没有办法在java中加载完整的HTML生成页面

我正在尝试获取整个网页,以便我可以提取一些数据。我正在使用(或尝试使用)HtmlUnit。我想得到的结果是从所有来源生成的完全生成的代码。一世 ...

回答 2 投票 -2

如何使用VBA改进数据抓取?

我有下面的代码,从内联网获取数据。但它花了更多的时间来获取数据。有人帮我修改代码以提高性能。在此先感谢 - 我没有发布...

回答 1 投票 -2

Incapsula如何运作以及如何击败它

Incapsula是一个Web应用程序交付平台,可用于防止抓取。我在Python和Scrapy工作,我找到了这个,但它似乎已经过时了,不能使用当前...

回答 1 投票 6

将scrapy蜘蛛打造成我自己的程序,我不想从命令行调用scrapy)

与此问题类似:stackoverflow:run-multiple-spiders-in-scrapy我想知道,我可以在另一个python程序中运行整个scrapy项目吗?让我们说我想......

回答 2 投票 8

无法点击地图上的标志

我在Python中编写了一个与selenium相关联的脚本,点击地图中的每个标志。但是,当我执行我的脚本时,它会在达到此时抛出超时异常错误...

回答 2 投票 13

从'div'中的'p'中提取文本

我想做的很简单,请访问https://www.reddit.com/new/,并仅提取前3个帖子的标题。在尝试下一个之前,我尝试仅提取第一个的标题...

回答 1 投票 1

Python - Webscape隐藏的字符显示在len如何删除这些?

我使用过:driver.find_elements_by_xpath('(。/ span [@class =“x”])')[0] .text它提取的信息是正确的,但它添加了在HTML中显示为“”的空格来自网站im ...

回答 2 投票 0

如何使用panda为python同时追加多个列

我目前正在使用python来搜索每个NBA玩家的三点统计数据,并试图将这些数据放入数据框中。下面的代码是我尝试将值添加到数据中...

回答 1 投票 0

如何在 Google 表格中插入亚马逊的商品价格?

我正在尝试从此链接插入: https://www.amazon.it/dp/B07NDW5NSW/ref=twister_B07P9DXZ1C?_encoding=UTF8&psc=1 智能手机的当前价格,目前是: (853)。 我

回答 2 投票 0

for-loop没有拿起if-else语句

我很难在这个函数中打印出10行/输出。到目前为止,我只有两个输出。 for-loop不是逐行读取,或者if-else语句是错误的。 #copy和...

回答 1 投票 0

为什么JSoup在我的代码中的随机位置超时?

我目前正在尝试使用Java中的JSoup来搜索retrosheets.org以进行我正在进行的棒球编码项目。我在我的代码中执行多个JSoup连接,其中一些连接是......

回答 1 投票 0


Python - 使用Google登录从网站下载文件

我正在尝试使用Python 3从网站下载文件。直接解析URL不起作用,因为URL每次都会转发到登录页面,您需要使用Google登录进行登录...

回答 2 投票 0

如何从使用php和javascript的网页解析python信息

我试图从这个网页获取所有事件和其他元数据到这些事件:https://alando-palais.de/events我的问题是,结果(html)不包含我的信息。 ..

回答 2 投票 0

使用Python进行地理编码 - 从公司名称获取地址

我目前正在开展一个项目,其中我有一个公司名称列表,我必须得到每个公司名称的地址。我尝试使用地理编码谷歌API甚至以下代码,但它...

回答 2 投票 -2

Puppeteer:向下滚动Twitter时间线停止

我在使用puppeteer在用户时间线上抓取所有推文网址时遇到问题。使用puppeteer,脚本应该在...的while循环的每次迭代中向下滚动时间轴。

回答 1 投票 1

如何使用Selenium通过Python单击联盟列表中的每个项目时防止StaleElementReferenceException

在此网站上运行:https://www.livetulokset.com/ my_leagues = browser.find_element_by_id('my-leagues-list')#single element leagues = my_leagues.find_elements_by_tag_name('li')#list of ...

回答 2 投票 1

如何使用Selenium + Python加载动态内容

在Quora用户个人资料页面上,我想通过点击“更多”来显示每个用户的答案的整个文本,但我无法获得“更多”元素列表,而是我得到一个空列表,该怎么做? ...

回答 3 投票 0

获取一个国家的天气,放置bs4

我正在尝试使用这个网站https://www.timeanddate.com/weather/通过打开URL来使用BeautifulSoup4来刮取天气数据:quote_page = r“https://www.timeanddate.com/weather/ %s /%s / ext“......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.