我正在使用VBA excel中的web-scraper。
由于我正在抓取的网站的机制,我必须通过excel进行,因为该网站是一个政府平台,通过位于授权计算机上的文件从Internet Explorer验证,通常我使用python或parsehub,但我们在这里。
我遇到的问题是我正在抓大约6,600个唯一页面(所有格式完全相同),并且目前需要3到5秒才能加载每个页面,这导致宏必须运行6到9个小时。
我的问题是关于机制,因为我限制了网页的加载速度,一次运行多个链接的过程是可能的还是可行的,而不是一次打开一个,打开10,at一次?或者瓶颈更可能是我的互联网连接而不是IE速度?
只是头脑风暴在这里。
您可以使用Selenium Basic,因此您可以操作Google Chrome,使用selenium或IE VBA,您可以运行多个实例并运行Javascript Scripts assync。
我认为最好的方法是使用HTTPRequest,如果页面不是动态的(谁用javascript函数更改)