web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用Python从网页中提取图像链接

所以我想在这个页面(nba团队)上获得所有图片。 http://www.cbssports.com/nba/draft/mock-draft然而,我的代码提供了更多。它给了我,

回答 3 投票 2

Beautiful Soup / urllib不会读取某些HTML标记

我最近开始使用Beautiful Soup。为了练习,我试图抓住这个网站。刮刀似乎无法访问一些div标签,即使URL读取器也没有...

回答 1 投票 1

无法从维基百科中将数据写入R中的可读格式

我是R的新手。我正在尝试从维基百科中搜索数据,但o / p不是可读格式。下面是我的代码:library(“rvest”)library(“xml2”)library(“magrittr”)library(“tidyverse”)wiki_url

回答 2 投票 -2

Selenium - 在迭代元素中搜索元素[复制]

我试图从一个乐队的网站上删除Facebook帖子,但是我在迭代的WebElement中搜索时出错:selenium.common.exceptions.NoSuchElementException:消息:没有这样的元素:...

回答 1 投票 -1

XPath地址不够详细

我正在开发一个简单的项目(更多的是Web开发中的练习而不是任何东西),我很早就遇到了一个问题。对于上下文,我试图提取最好的前三十名...

回答 1 投票 2

刮空字段

我需要提取所有值,包括表中的空字段,但问题是提取方法会跳过空字段。我怎样才能收集这些空白的田地或用一些东西代替它们......

回答 1 投票 0

使用dt类名称selenium python打印元素

我试图在Linkedin中为Sales Navigator编写一个简单的剪贴簿,这是我想要废弃的链接。它具有为帐户结果选择的特定过滤器选项的搜索结果。 ......

回答 1 投票 0

BeautifulSoup4找到所有非嵌套匹配

我很难在html文档中设置与我的查询匹配的所有最外层元素的简单搜索。我在这里问,希望有一个简单的bs4功能可以做到这一点,但它......

回答 2 投票 1

使用bs4的Python web抓取不使用类pg-bodyCopy has-apos

我正试图废弃:https://www.washingtonpost.com/graphics/politics/trump-claims-database/?simplyirect = on&utm_term = .6adf0edf80b到目前为止我尝试过的左侧所有日期和文本。 。

回答 2 投票 1

如何点击 elements in an and elements with selenium using python? 列表

我正在抓一个网站。我正在尝试点击下面的链接 但它会抛出NoSuchElementException异常。我要点击的链接:我正在使用下面的代码:来自selenium import ...

回答 2 投票 -1

读取文件时字符串索引超出范围

我想阅读以下格式的csv:BX80684I58400; https://www.websupplies.gr/epeksergastis-intel-core-i5-8400-9mb-2-80ghz-bx80684i58400 bx80677g3930; https://www.websupplies.gr / epeksergastis -...

回答 3 投票 5

检索搜索结果selenium python bs4

我成功地编写了一个脚本来从Linkedin中的sales navigator中检索搜索结果。以下是使用python,selenium和bs4的脚本。 browser = webdriver.Firefox(...

回答 1 投票 1

程序在没有发现此类元素异常后立即退出

我正在使用硒在python 2.7中开发一个刮刀。我面临的主要问题是我的程序在没有找到这样的元素异常之后立即终止。我试了好几个......

回答 1 投票 0

来自亚马逊网站的Web Scraping正在提供HTTP错误

我正在使用Python:3.7.1版本并使用此功能,我想对亚马逊网站上的I-Phone用户评论(或客户评论)进行网络报废(链接如下)。链接(要废弃):https:// ...

回答 1 投票 0

如何在不被检测到的情况下抓取网站并通过Python使用selenium webdriver绕过reCAPTCHA?

我知道webscraping,我从不同的网站获取数据,我使用python语言和selenium webdriver chrome。但我打电话给一个网站它是打开头版然后我点击或去...

回答 2 投票 -1

我在安装beautifulsoup时遇到错误

C:\ Users \ esin> pip install beautifulsoup4收集beautifulsoup4重试(重试(总计= 4,连接=无,读取=无,重定向=无,状态=无))连接被'SSLError(...

回答 1 投票 0

如何使用URL中的页码刮取多个页面

当页码在URL中时,如何刮取多个页面?例如:https://www.cars.com/for-sale/searchresults.action/?mdId = 21811&mkId = 20024&page = ** 1 **&perPage = 100&rd = ...

回答 2 投票 1

如何使用python循环遍历angularjs下拉菜单的元素[关闭]

这是带有城市列表的下拉菜单的Html代码:我只想使用python遍历所有城市。顺便说一下,我正在尝试创建一个网络刮板,并没有该网站的api :(

回答 1 投票 0

Python web scrape登录

我是python的新手,并尝试使用xpath和请求登录并从此处获取一些数据,使用本教程中演示的方法。我的python脚本目前如下:来自lxml ...

回答 1 投票 0

Scrapy在哪里实际执行html请求?

我在Python3中使用Scrapy(Scrapy == 1.6.0)库。我想知道,在代码中Scrapy实际上在哪里做HTML请求?我想在那里设置一个断点,这样我就可以看到究竟是什么......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.