web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

处理网页抓取中的插值(Beautiful Soup)

我正在用Python和Beautiful Soup进行一些网络抓取。我遇到了一个问题,我得到的结果包含原始Javascript插值,而不是值本身。所以......

回答 1 投票 0

我的scrpay文本结果不断返回“\ n \ n”

我试图从https://www.companiesintheuk.co.uk/Company/Find?q=a搜索一些搜索结果使用命令response.css('div.search_result_title')。extract()哪个有效,但是当我尝试 ...

回答 1 投票 0

找不到元素异常:HTMLUnit - 按ID搜索

我试图使用HTMLUnit(第一次)从特定页面中提取数据。具体来说,我目前正在尝试按ID(搜索框)抓取HTML元素。但我遇到了:例外......

回答 1 投票 0

从页面源主体中提取json

我试图从下面的网页上删除数据,使用Python 3中的Selenium:https://www.whoscored.com/Matches/1285051/Live/England-Premier-League-2018-2019-West-Ham-Huddersfield If这个网址是......

回答 2 投票 0

无法在ServerXMLHTTP请求中设置自定义超时

我在vba中编写了一个脚本,在发出代理请求后从网站上删除了第一篇文章。我在我的vba脚本中发出http请求时使用了代理(代理列表),以便...

回答 1 投票 1

简单的网络刮刀非常慢

我对python和web-scraping很新。下面的代码可以工作,但它实际经历的信息量似乎非常慢。有没有办法轻松减少......

回答 1 投票 0

RSelenium:点击其他链接中的链接

我有这个RSelenium脚本:库(tidyverse)库(RSelenium)#通过docker库(rvest)库(httr)remDr运行

回答 1 投票 0

登录到Scraping Testing Ground网站和Scrape html之后

我正在构建Web scraper,我需要从需要登录的网站中删除html。我尝试了大多数stackoverflow anwsers我没有找到我正在寻找的anwser。我不知道如何获得结果html。 ...

回答 1 投票 0

有没有办法在Swift或RxAlamofire中退出浏览器会话?

我正在网页报废用户必须登录的特定网站。登出用户很简单,但在注销后网站要求用户“关闭浏览器”。如果用户只...

回答 1 投票 0

解析HTML getElementsByTagName不返回所有单元格

我有一些代码用于从网页上抓取数据,但网页已经更改,无法再使其工作。该代码应该对内幕交易进行计算......

回答 1 投票 0

刮网页最好(最快)的方法是什么?

我正在尝试从Google专利中搜索数据,并发现执行时间过长。我怎样才能提高速度?通过8000项专利已经花了7个小时...这是一个例子......

回答 1 投票 0

如何通过php中的curl发送请求有效负载

我在php中使用curl登录danamon银行。我登录但后来我尝试使用json编码在json中发布请求有效负载,如下所示 - $ data = ['__EVENTTARGET'=> $ ...

回答 2 投票 2

你怎么得到selenium webdriver从网站返回所有HTML?

我试图从https://www.utahrealestate.com/search/map.search/page/1搜索房地产列表,并且无法获取selenium的webdriver以清除所有的HTML。从我能做的......

回答 2 投票 1

如何用分页抓取网页

我正在设置一个新的服务器,并希望从网站上抓取一些信息,这是我的代码,我试图逐个抓取页面,但我只得到2个页面$ result = array();功能......

回答 1 投票 1

你如何使用熊猫和美味汤在多个网页地址上刮表?

我想从网站上的表中提取数据。该表存在于165个网页中,我想将其全部删除。我只能得到第一页。我试过熊猫,......

回答 1 投票 1

无法使用python beautifulsoup到utf-8将网页抓取转换为charset 1253

我试图用html charset部分网页抓取一个网页 整个HTML而不是希腊字符显示以下内容......

回答 1 投票 0

单击Chromedp按钮

我正在尝试使用Go库Chromedp从网页中抓取一些数据。我基本上需要点击一个按钮,例如W3C学校网站上的“点击我”按钮。我需要 ...

回答 1 投票 0

becomes empty, when I'm trying to get it via BeautifulSoup

我正在尝试解析网站https://www.kp.ru/best/kazan/abiturient_2018/ivmit/中的表格。 Chrome的DevTools向我展示该表是:

回答 1 投票 1

Kotlin Selenium Chromedriver不存在

我正在尝试用Kotlin制作一个网络应用程序。由于我将要抓取的网站是JS生成的,我一直在尝试使Selenium工作,但我一直被这个错误所困扰。 java.lang中....

回答 3 投票 0

如何从动态网站python selenium中检索表

我想从动态网站上的表中检索所有信息,我有以下代码:来自selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait ...

回答 3 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.