Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。
我正在尝试使用ImportXML函数将以下网站的价格(5.99美元)导入我的Google工作表。我似乎无法识别网站上的类名以使其工作。目前 ...
如何在BeautifulSoup中提取包含普通文本以及其他HTML标记的内容?
使用BeautifulSoup,我试图提取标签之间的内容。我使用string属性来获得所需的输出。如果标签只包含......它可以正常工作
Python Beautifulsoup(bs4)findAll找不到所有元素
从代码中的url,我最终尝试从页面中收集所有玩家名称。但是,当我使用.findAll来获取所有列表元素时,我还没有......
如何修复数据库中的Python请求/ BeautifulSoup响应
我是网络抓取/编码的新手,我正在尝试使用Python请求/ BeautifulSoup来解析html代码,以获得一些物理和化学属性。出于某种原因,虽然......
python web scraping - len(containers)总是返回0
我试图从他们的在线pokedex网上抓取口袋妖怪信息,但我遇到了findAll()函数的问题。我有:containers = page_soup.findAll(“div”,{“class”:“pokemon-info”})...
尝试提取数据并希望保存在Excel中但使用python beautifulsoup获取错误
尝试提取但在最后一个字段中获取错误想要保存excel中的所有字段。我已经尝试使用beautifulsoup来提取,但未能捕获,得到以下错误Traceback(最近...
web scraping jsoup java无法抓取全部信息
我有一个从网站上删除的信息。我可以刮它。但并非所有信息都被刮掉了。有太多的数据丢失。以下图片可帮助您进一步了解......
POST请求在Postman中有效,但在Python请求中无效(200响应机器人检测)
我有一个POST请求,它与Postman和cURL完美配合(它返回一个JSON blob数据)。但是,当我使用Python的Requests库执行完全相同的请求时,我得到了200 ...
使用scrapy中的try / except子句无法获得所需的结果
我在scrapy中编写了一个脚本,通过get_proxies()方法使用新生成的代理来生成代理请求。我使用请求模块来获取代理,以便在脚本中重用它们。我......
从bs4导入BeautifulSoup作为BS url =“https://nseindia.com/live_market/dynaContent/live_watch/get_quote/GetQuote.jsp?symbol=KOTAKBANK&illiquid=0&smeFlag=0&itpFlag=0”page = urllib ....
我正在从列表中抓取多个网址。它似乎工作,但输出都是混合的,并不相互对应。这是带线程的代码:导入请求导入pandas ...
我试图从给定的URL中削减曲棍球棒的价格。最后我还想获取名称+ URL,但我认为没有必要解决这个问题。这就是我所拥有的:......
如何从HTML代码中打印“print me 1”和“print me 2”?
如果我有这个HTML代码, print me 1 patates
我想从https://www.basketball-reference.com/leagues/NBA_2018.html中提取一个表格。我想要的桌子是(每队比赛统计数据)。这个网页有多个表格,当我尝试...
我在节点中创建了一个脚本,使用promise和cheerio来解析链接到网站上不同帖子的标题,然后从它的内页抓取每个帖子的标题......
此代码正在执行并提供指向单个网站的数据的多个链接。代码提到了网站。网站有多个链接的数据,然后列表为一个单独的表你能...
如何使用VBA单击Internet Explorer中的按钮
我看到了一些示例,解释了如何通过VBA单击Internet Explorer中的按钮。但是,我需要使用的网站不起作用。 *它没有“id”。我看到了函数querySelector,...
Chrome镀铬驱动程序是否支持Selenium的PageLoadStrategy ='eager'?
我正试图用Selenium /无头镀铬刮掉一些东西。在某些页面中,驱动程序将不会移动到下一步,直到加载整页(即使存在相关元素)。 ...
我需要在Node-red中删除一个网站,但我不确定应该怎么做。我知道如何在Google Spreadsheets中废弃网站,但我不知道如何对节点-...中的html节点做同样的事情。