web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在Javascript中完全迭代/抓取HTML文档

我对Web开发很新,包括HTML / CSS和Javascript。有没有办法刮掉整个HTML文档,只使用vanilla JS在内部文本中查找某些模式?一世 ...

回答 2 投票 1

使用R在搜索功能中按linkname下载URL

我想通过一些参数从每个月的页面中获取信息,下载所有返回的文章并查找一些信息。例如,使用css选择器进行刮擦可以正常工作......

回答 1 投票 0

Web使用python(BeautifulSoup)对数据进行刮擦

如何使用beautifulsoup从一个HTML页面中删除数据

回答 1 投票 0

python中的Urllib2:为什么它不返回网页格式而不是实际数据

有人告诉我为什么,当我运行这段代码时:在范围内导入urllib2(1,2):id_name ='AP'+ str(“{:05d}”。format(i))web_page =“http:/ /aps.unmc.edu/AP/database/query_output.php?...

回答 2 投票 0

将已删除的数据导出到CSV文件

我正在尝试从网站获取数据,要求我在抓取数据之前遵循2个网址。目标是获得一个如下所示的导出文件:我的代码如下:从...导入scrapy

回答 1 投票 0

Scrapy:从相对路径构造非重复的绝对路径列表

问题:如何使用Scrapy从img src标记下的相对路径创建绝对路径的非重复列表?背景:我正在尝试使用Scrapy抓取网站,拉下任何链接...

回答 2 投票 1

Google表格导入XML

我想将以下网页中的“主要市场部门”表格导入Google表格。我尝试过使用chrome检查器工具,以及XPath参考,没有任何运气。 ...

回答 1 投票 0

如何使用单个脚本从具有不同源代码的不同站点中获取数据?

我在python中编写了一个脚本来解析不同网站中可用的不同配置文件名称。每个链接都连接到其个人资料信息可用的每个人。在这 ...

回答 2 投票 1

无法以自定义方式在csv文件中写入数据

我编写了一个脚本来从表中获取数据并将其写入csv文件中。所需的数据即将到来,我的脚本也可以将它们写入csv文件中。但是,唯一的问题我不能......

回答 1 投票 0

从网页Python中刮取多个表格

我正试图从下面的网页上抓取多个表格。但是,我的代码只获得第一个表,即使所有表都嵌套在相同的tr和td标记中。这是我的尝试:url = ...

回答 1 投票 0

没有得到想要的XPath

总而言之,我如何获得一个XPath来填补我的脚本中的可能性。一个提供不同值的XPath。 groups =“.//div [contains(@class,'gl-ParticipantOddsOnlyDarker gl')]”xp_ba3 =“。// span [...

回答 1 投票 0

无法获取包含tr标签链接的所有数据

我在python中编写了一个脚本来从表中的一些html元素中获取数据。我粗略地挑选了一些tr标签内的数据。我的目标是获取数据(包括href链接)......

回答 4 投票 0

使用beautifulsoup完成网页抓取

需要一些帮助使用beautifulsoup库进行网页抓取。我需要从网页http://thehill.com/.../365407-sean-diddy-combs-wants-to-buy-c ...中提取文字。我的目标是提取...

回答 1 投票 -1

Casperjs新页面但表格不更新

我试图在以下网站中提取该表http://projects.wsj.com/jettracker/#a=HYA&d=BED&e=2011-01-01&m=indv&o=EMC+CORP.&p=0&s=2007-01- 01排序= d&T = ...

回答 1 投票 0

如何刮一个重定向一段时间的网站

我正在尝试刮一个延迟5秒的网站,同时显示一个ddos预防页面,网站是Koinex我使用的是Python3和BeuwtifulSoup,我想我需要介绍一个...

回答 1 投票 0

处理不均匀的数据

我如何处理被窃听的页面,因此数据没有被正确地删除。虽然我试图在下面执行类似的东西而没有运气,因为页面的结构不是那么简单。 ...

回答 1 投票 0

我的刮刀无法从网页上获取所有项目

我已经在python中编写了一些与selenium结合使用的代码来解析网页中的不同产品名称。如果使浏览器向下滚动,则几乎没有可见的按钮可见。 ......

回答 2 投票 2

Scrapy非常基本的例子

嗨我在我的Mac上安装了Python Scrapy,我试图在他们的网络上关注第一个例子。他们试图运行命令:scrapy crawl mininova.org -o scraped_data.json -t ...

回答 2 投票 19

Scrapy多个回调问题

你好,我写了这个蜘蛛,以获得starturl上的新产品。但是,我在编写另一个回调来解析新产品时遇到问题,然后再回到普通的解析回调中......

回答 1 投票 0

美丽的汤Parse Python

我使用BS4捕获了以下html,但似乎无法搜索艺术家标签。我已将这段代码分配给一个名为container的变量,然后尝试打印container.tr.td [“artist”...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.