web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在span类上导入XML-xpathquery

我正在尝试使用ImportXML函数将以下网站的价格(5.99美元)导入我的Google工作表。我似乎无法识别网站上的类名以使其工作。目前 ...

回答 1 投票 0

如何在BeautifulSoup中提取包含普通文本以及其他HTML标记的内容?

使用BeautifulSoup,我试图提取标签之间的内容。我使用string属性来获得所需的输出。如果标签只包含......它可以正常工作

回答 2 投票 2

Python Beautifulsoup(bs4)findAll找不到所有元素

从代码中的url,我最终尝试从页面中收集所有玩家名称。但是,当我使用.findAll来获取所有列表元素时,我还没有......

回答 3 投票 4

如何修复数据库中的Python请求/ BeautifulSoup响应

我是网络抓取/编码的新手,我正在尝试使用Python请求/ BeautifulSoup来解析html代码,以获得一些物理和化学属性。出于某种原因,虽然......

回答 2 投票 1

python web scraping - len(containers)总是返回0

我试图从他们的在线pokedex网上抓取口袋妖怪信息,但我遇到了findAll()函数的问题。我有:containers = page_soup.findAll(“div”,{“class”:“pokemon-info”})...

回答 2 投票 1

尝试提取数据并希望保存在Excel中但使用python beautifulsoup获取错误

尝试提取但在最后一个字段中获取错误想要保存excel中的所有字段。我已经尝试使用beautifulsoup来提取,但未能捕获,得到以下错误Traceback(最近...

回答 2 投票 0

web scraping jsoup java无法抓取全部信息

我有一个从网站上删除的信息。我可以刮它。但并非所有信息都被刮掉了。有太多的数据丢失。以下图片可帮助您进一步了解......

回答 1 投票 0

POST请求在Postman中有效,但在Python请求中无效(200响应机器人检测)

我有一个POST请求,它与Postman和cURL完美配合(它返回一个JSON blob数据)。但是,当我使用Python的Requests库执行完全相同的请求时,我得到了200 ...

回答 1 投票 2

使用scrapy中的try / except子句无法获得所需的结果

我在scrapy中编写了一个脚本,通过get_proxies()方法使用新生成的代理来生成代理请求。我使用请求模块来获取代理,以便在脚本中重用它们。我......

回答 2 投票 2

我想从给定的网页中提取vwap值

从bs4导入BeautifulSoup作为BS url =“https://nseindia.com/live_market/dynaContent/live_watch/get_quote/GetQuote.jsp?symbol=KOTAKBANK&illiquid=0&smeFlag=0&itpFlag=0”page = urllib ....

回答 1 投票 1

如何在url列表中安全地进行多线程处理?

我正在从列表中抓取多个网址。它似乎工作,但输出都是混合的,并不相互对应。这是带线程的代码:导入请求导入pandas ...

回答 1 投票 1

清理抓取结果以返回锚文本,但不返回HTML

我试图从给定的URL中削减曲棍球棒的价格。最后我还想获取名称+ URL,但我认为没有必要解决这个问题。这就是我所拥有的:......

回答 2 投票 1

无法从SPAN标记中获取文本

我试图解析的网站结构如下:

回答 2 投票 2

如何从HTML代码中打印“print me 1”和“print me 2”?

如果我有这个HTML代码, print me 1 patates

回答 1 投票 -1

如何从R中包含多个表的网站中提取特定表?

我想从https://www.basketball-reference.com/leagues/NBA_2018.html中提取一个表格。我想要的桌子是(每队比赛统计数据)。这个网页有多个表格,当我尝试...

回答 1 投票 0

当我利用诺言时,麻烦返回结果

我在节点中创建了一个脚本,使用promise和cheerio来解析链接到网站上不同帖子的标题,然后从它的内页抓取每个帖子的标题......

回答 1 投票 0

如何从单个网站HTML上的多个链接获取数据并将其制表

此代码正在执行并提供指向单个网站的数据的多个链接。代码提到了网站。网站有多个链接的数据,然后列表为一个单独的表你能...

回答 1 投票 -1

如何使用VBA单击Internet Explorer中的按钮

我看到了一些示例,解释了如何通过VBA单击Internet Explorer中的按钮。但是,我需要使用的网站不起作用。 *它没有“id”。我看到了函数querySelector,...

回答 2 投票 1

Chrome镀铬驱动程序是否支持Selenium的PageLoadStrategy ='eager'?

我正试图用Selenium /无头镀铬刮掉一些东西。在某些页面中,驱动程序将不会移动到下一步,直到加载整页(即使存在相关元素)。 ...

回答 4 投票 4

如何在Node-red中废弃网站

我需要在Node-red中删除一个网站,但我不确定应该怎么做。我知道如何在Google Spreadsheets中废弃网站,但我不知道如何对节点-...中的html节点做同样的事情。

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.