web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在python中的web抓取期间json错误转储

我正在尝试从数字公共网站下载缩略图,以便进行imageJ可视化。一切都打印到JSON转储文件。我有一个由我的朋友写的代码...

回答 1 投票 1

如何查看HTML页面中的选项卡是否存在,如果是这样,是否链接到它以刮取数据?

我有一些代码(感谢另一个用户)打开IE进入一个网站并抓取数据并将其反馈到我的工作表。代码完全适用于它应该如何,但我有一个小问题...

回答 1 投票 1

如何将抓取脚本转换为Web服务?

我想构建一个接受字符串并返回html代码的api。这是我想要作为网络服务的抓取代码。代码来自selenium import webdriver import bs4 import requests import ...

回答 3 投票 0

如何从网站提取数据并使用VBA填写Excel表格?

我想从betexplorer.com提取数据。我想从以下URL中提取两个不同的数据:https://www.betexplorer.com/soccer/s...eague-1/stats/我想...

回答 2 投票 2

如何在网站上循环.txt文件链接,抓取并存储在一个可延展的csv / excel文件中

我希望能够从特定网站(https://physionet.org/challenge/2012/set-a/)和类似的子目录中获取数据,同时还获取每个文本文件并将其添加到巨型网站。 ..

回答 1 投票 0

python单击网页上的按钮

我目前有一个脚本可以将我登录到一个网站,我想让它点击网站上的一个按钮,如果它当前没有被点击。这是按钮的信息:当按钮已经...

回答 1 投票 10

IMPORTHTML /表拉问题

尝试导入多个销售市场的天气预报,但我使用的网站阻止了Bot Crawl,因此我的ImportHTML功能无法获取URL。我找到了另一个网站,但桌子是......

回答 2 投票 0

Python和BS4 - 奇怪的行为,刮刀冻结/停止工作一段时间没有错误

我正试图刮掉eastbay.com的Jordans。我已经使用BS4设置了我的剪贴板并且它可以正常工作,但从未完成或报告错误,只是在某些时候冻结。奇怪的是它停止了......

回答 1 投票 1

在网页抓取表格时回退值的问题

我试图从网页上的表格中提取文本。我使用Invoke-WebRequest拉取网页,将该变量设置为显示“AllElements”并尝试仅拉出匹配的内部值“...

回答 1 投票 1

除了使用BeautifulSoup和Scrapy之外,有没有办法刮除不可废弃的网站,因为这些不起作用?

我试图将Tangerine网站上的nbn计划作为一项刮刮练习。我正在使用BeautifulSoup,我能够抓取数据并查看终端中的数据,但是一旦我保存...

回答 1 投票 2

点击“提交”后VBA Excel提取新的网页数据

我试图从一个通过API编号提供油井数据的网站提取一些信息(API是美国每口井的唯一编号)网站:http://sonlite.dnr.state.la.us/sundown/ cart_prod / ...

回答 2 投票 2

网络抓取最频繁的名字

我需要网页抓取一个网页,找到五个最常见的名字。预期的输出应该像[('Anna Pavlovna',7),('王子',7),('皇后',3),('...

回答 2 投票 2

使用selenium检查域名

我试图在VBA中使用selenium检查一些域名这里是我的尝试Option Explicit Sub Check_Domain()Dim bot As New WebDriver Dim sDomain As String sDomain =“facebookopop.com”...

回答 1 投票 2

试图从表中提取数据,并且有外来字符阻止我写入csv文件

我正在提取数据但是一些特殊字符会导致unicodedata导入错误导入编解码器导入来自BeautifulSoup导入的csv import urllib2导入请求...

回答 2 投票 0

请求未通过中间件代理

我已经在scrapy中编写了一个脚本,以便通过自定义中间件传递请求,以便代理该请求。但是,该脚本似乎没有任何中间件的影响。什么时候 ...

回答 2 投票 1

当我按下tkinter中的“浏览”按钮时,如何填充条目小部件?

我有以下代码,用于打开GUI,允许我从指定的路径浏览文件,然后单击提交按钮后,网页将被填充...

回答 1 投票 -1

如何转换 使用内置运算符json.dumps在python中使用JSON

我如何转换为json格式,我得到一个错误“不是JSON序列化”以下是我的程序从urllib2 import urlopen作为uReq import re从bs4 import BeautifulSoup,Comment ...

回答 2 投票 0

BeautifulSoup刮交替div

我正在尝试将我编写的文件作为学习实验。它看起来像这样: 1st ...

回答 2 投票 1

使用Python库的问题 - Pyotodom

我想用这个库从otodom中抓取数据。我已经阅读了文档但是我被困在一个非常基础的层面上,试图进行基本的导入。我使用的代码直接来自文档。在上面 ...

回答 1 投票 -2

如何检查find_element_by_partial_link_text的父元素

我正在使用find_element_by_partial_link_text选择器来查找“下一步”按钮,以便我可以单击它并继续抓取。但是,我遇到的问题是有时候“下一个”这个词是......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.