我一直在研究一个Python项目,其中用户为该程序提供了很长的URL列表(比如说100个URL),该程序将产生100个进程来执行包含爬虫代码的JavaScript代码(使用[C0 ])。此外,基于Apify Puppeteer单页模板创建和修改JavaScript代码。
但是,由100个进程同时调用爬网代码会占用大量内存,这会导致滞后。由于Python代码正在等待从JavaScript代码编写的文件中读取结果,因此内存不足会极大地影响性能,并在文件写入时引发错误。我想知道是否有任何方法可以优化JavaScript搜寻器代码,或者双方都可以进行任何改进?
Apify.launchPuppeteer()
。