web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

从表中刮取数据并将其存储在csv文件中

我想废弃这个网站上的数据,并以这种方式将其存储在csv文件中。但是当我试图废弃数据时,它并没有以精确的格式存储。所有数据都存储在第1栏中......

回答 2 投票 -1

用于从网站获取数据的vba代码

我是这个网站的新手,也是VBA编程的新手。我遇到了一个问题,我必须从这个页面获取数据。我需要有Check Rates 10按钮的超链接网址。能够 ...

回答 2 投票 4

多核执行Scrapy

嗨,您好。目前我正在构建一个运行速度不快的Web scraper。我能以某种方式管理我的蜘蛛使用其他CPU核心或多个相同的蜘蛛并行运行吗? BricoMarcheSpider ......

回答 1 投票 1

刮Instagram发布日期

我试图刮Instagram以获得最近的发布日期。我正在使用硒来完成工作。但是当我使用get_element_by_xpath并给出日期文本的路径时,它表示找不到元素。 ...

回答 1 投票 -2

使用Node.js从不同站点下载数据

我应该创建一些代码,允许我从不同的站点下载数据(例如:WHO,Unicef,Eurostat,...),然后将这些数据转换为我认为有用的格式,例如JSON。 (如果我 ...

回答 1 投票 0

为什么这个配方不起作用?

我正在尝试通过IMPORTHTML,IMPORTDATA函数将数据从网页导入Google电子表格。我使用的公式是IMPORTDATA(“https://www.screener.in/screens/1/The-Bull-Cartel/”)...

回答 1 投票 1

试图通过使用soup.select和soup.find_all来提取URL

这是网页HTML源代码的一部分:

回答 3 投票 1

循环在r中的网络抓取

我想从bnf网站上查一些药物清单https://bnf.nice.org.uk/drug/我们以卡马西平为例 - https://bnf.nice.org.uk/drug/carbamazepine。 html#indicationsAndDoses I ...

回答 1 投票 0

Python Web-scraping多页表到csv和DF进行分析

当我尝试浏览网页时,它只从第10页到csv文件的表格,我想将每个页面的结果发送到文件。我知道我可能很容易......

回答 1 投票 0

如何通过lxml XPath从HTML中提取img src?

我正在尝试使用python / lxml和xpath()命令提取图像URl,但是在隔离url本身时遇到了问题。这是我想要的img src的HTML:

回答 2 投票 0

从中提取文本 元素结束 分子

我正在使用BeautifulSoup编写一个脚本来从中提取文本 要素;它运作良好,直到遇到一个 包含的元素 标签,在这种情况下,它只捕获...

回答 2 投票 0

如何解析不同的标签数据并单独存储?

我正在尝试从以下网站分别解析class:fixture_date和class:play_team。 http://www.espncricinfo.com/ci/content/series/1128817.html?template=fixtures。代码:import re ...

回答 2 投票 1

使用Jsoup从表格和网站的所有选项卡获取链接

我是网络抓取的新手,所以这个问题可能没有完美构建。我试图从alphbetically提取给定页面的所有药物名称链接,结果提取所有a-z药物链接,...

回答 1 投票 0

Python RoboBrowser错误

我正在使用RoboBrowser使用以下代码登录网站:import rob from robobrowser import RoboBrowser bra = RoboBrowser()bra = open(“http://webpage.com”)form = bra.get_form()form ['user '] ='测试'......

回答 1 投票 0

Python 3.5 - 如何对javascript呈现的页面进行webscraping

我正在尝试使用python 3和webdriver提取一个javascript渲染表。我的代码如下:from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait ...

回答 1 投票 -2

在Python web scraper中显示所有搜索结果

我是Python的新手,正在构建一个web scraper,它将抓取以下页面及其中的链接:https://www.nalpcanada.com/Page.cfm?PageID = 33问题是页面的默认值是。 ..

回答 1 投票 0

使用BeautifulSoup在HTML注释中的标签内提取文本

我想在没有list标签的注释中的list元素中提取文本。但是我不能用下面的代码来完成它。来自bs4 import BeautifulSoup,评论html =“”“

回答 2 投票 0

使用J从Javascript弹出窗口中截取数据

我想从这个站点中删除名为“Constraints”的弹出窗口的内容:https://dataviewer.pjm.com/dataviewer/pages/public/lmp.jsf(单击约束后弹出窗口显示。 ..

回答 1 投票 1

抓取javascript生成的网页

将javascript内容转换为HTML以将其用于脚本时,我遇到了问题。我使用了多种方法作为phantomjs或python QT库,他们都很好地获得了大部分内容,但问题是......

回答 2 投票 0

requests.session初始化会话和输入搜索词

我正在尝试创建一个功能,进入该网站并在字段中输入邮政编码,然后执行逐项搜索,如搜索框中的“鸡”。我从这开始。进口......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.