web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

从Web获取表格时,BeautifulSoup返回无数据记录

网络抓取的新手。我需要从页面获取Daily Observations表(页面末尾的长表)数据:https://www.wunderground.com/history/daily/us/tx/greenville/KGVT/date/2015- ...

回答 1 投票 0

urllib.request上的Python 404'ing

代码的基础知识如下。我知道我是如何检索这些页面适用于其他URL的,因为我只是编写了一个以相同方式抓取不同页面的脚本。但是具体而言......

回答 1 投票 0

使用python3解析以下JsOn

请帮我从python中的以下json获取gRecaptchaResponse键{'errorId':0,'status':'ready','solution':{'gRecaptchaResponse':'03030359652SF_JNFDjddfjkjDJFKLjfds + 5d6sa5d + ...

回答 2 投票 -1

JS在弹出窗口中执行操作

最近我一直在学习JS并尝试与网页进行交互,首先进行抓取,但现在也在特定网页上进行交互。例如,我有一个包含按钮的网页,......

回答 1 投票 0

在抓取网站时,空值被解析为“N / A”字符串

我使用python从网站解析了一个表数据,网站表中为NULL的值在python中被取为N / A. df = pd.DataFrame(columns = range(0,9),index = [0])但是在分析时......

回答 1 投票 0

使用python和selenium从网页的一部分截取屏幕截图

我已经能够捕获截图作为一些元素的pngs,例如来自selenium的以下代码导入来自PIL的webdriver导入来自io的导入来自os.IO导入的BytesIO ...

回答 1 投票 0

使用beautifulsoup python在span类HTML中删除值

我试图在span类中抓取数据并使用Beautifulsoup将数据放入DataFrame中。到目前为止,我已经成功地到达了网页的正确位置。但似乎无法......

回答 2 投票 1

使用提交按钮使用Python下载文件

正如标题所暗示的,我想使用Python来使用提交按钮下载文件。在我的例子中,它是来自维基百科的pdf文件。很容易找到如何从URL下载文件的答案...

回答 1 投票 3

从python中的函数返回多个值

我想在python中返回多个链接,但无法弄清楚如何。如果我打印link_hrefI获取所有链接,但是当我返回时,我只获得第一个链接并退出应用程序。谁能帮我 ...

回答 3 投票 -1

使用Python从网站下载最新版本的文件到特定位置

我正在学习Python中的selenium和web-scraping(V3.6.6,x64版本)。我正在尝试编写一个脚本,在执行时会自动下载最新的ge64odriver win64版本(...

回答 1 投票 1

如何仅抓取数字而不是数字后面的文字?

以下是从我想要网页抓取的HTML代码中提取的内容。鉴于: SAT Math "541 average"

回答 1 投票 0

无法使用发布请求获取某些项目

我在python中编写了一个脚本来获取网站上的课程材料列表。要显示课程资料,有必要填写一些可以找到的输入如果您跟踪查找...

回答 1 投票 1

使用* vs元素标记

我正在写一个脚本来从网上抓取一些数据。我直接从浏览器复制了不同页面上几个相同元素的XPath,产生了// * [@ id =“priceblock_dealprice”] ...

回答 2 投票 0

BeautifulSoup无法使用ID找到Div

我正试图从亚马逊刮取价格并使用请求和BeautifulSoup4。脚本的片段如下:headers = {'User-Agent':'Mozilla / 5.0(Macintosh; Intel Mac OS X 10_10_1)...

回答 1 投票 0

Web抓取循环python问题

我是一个python新手,想知道是否有人能够突出显示我在下面的webscraping脚本出错的地方。我试图递归循环遍历...的列表

回答 1 投票 2

创建函数以避免R for循环中的url错误

我正在循环遍历一个充满网址的.csv来抓取一个网站(授权抓取)。我正在使用trycatch函数来尝试避免我的for循环中断。但我注意到它停止了一些网址(...

回答 1 投票 0

当html元素没有返回值时如何跳过一行?

以下是我要完成的细分:1)从电子表格中的列表中获取值2)使用该值搜索URL 3)从HTML中获取ElementId并将其添加到电子表格中...

回答 1 投票 0

为什么浏览器无法打开本地保存的HTML页面?

我使用浏览器提供的“另存为”将此页面“https://www.applebees.com/en/locations/results?searchQuery=London”保存到本地文件中。我放入浏览器的地址是:'file:/// users / ...

回答 1 投票 0

无法限制我的脚本来解析网页中的特定部分

我在python中编写了一个脚本来从Ppage中删除Plot中的描述。事情是描述在几个p标签内。还有其他p标签,我不希望......

回答 2 投票 1

python尝试和除了url更正Python 3

我正试图从网页上获取HTML。但是,并非所有URL都已正确编写。列表中的大多数无效URL都包含http,但现在URL正在使用https。有些人遗漏了“www。”,并且......

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.