Puppeteer - 协议错误(Page.navigate):目标已关闭

问题描述 投票:4回答:1

正如您在下面的示例代码中看到的那样,我正在使用Puppeteer与Node中的一组工作人员按给定的URL运行多个网站截图请求:

const cluster = require('cluster');
const express = require('express');
const bodyParser = require('body-parser');
const puppeteer = require('puppeteer');

async function getScreenshot(domain) {
    let screenshot;
    const browser = await puppeteer.launch({ args: ['--no-sandbox', '--disable-setuid-sandbox', '--disable-dev-shm-usage'] });
    const page = await browser.newPage();

    try {
        await page.goto('http://' + domain + '/', { timeout: 60000, waitUntil: 'networkidle2' });
    } catch (error) {
        try {
            await page.goto('http://' + domain + '/', { timeout: 120000, waitUntil: 'networkidle2' });
            screenshot = await page.screenshot({ type: 'png', encoding: 'base64' });
        } catch (error) {
            console.error('Connecting to: ' + domain + ' failed due to: ' + error);
        }

    await page.close();
    await browser.close();

    return screenshot;
}

if (cluster.isMaster) {
    const numOfWorkers = require('os').cpus().length;
    for (let worker = 0; worker < numOfWorkers; worker++) {
        cluster.fork();
    }

    cluster.on('exit', function (worker, code, signal) {
        console.debug('Worker ' + worker.process.pid + ' died with code: ' + code + ', and signal: ' + signal);
        Cluster.fork();
    });

    cluster.on('message', function (handler, msg) {
        console.debug('Worker: ' + handler.process.pid + ' has finished working on ' + msg.domain + '. Exiting...');
        if (Cluster.workers[handler.id]) {
            Cluster.workers[handler.id].kill('SIGTERM');
        }
    });
} else {
    const app = express();
    app.use(bodyParser.json());
    app.listen(80, function() {
        console.debug('Worker ' + process.pid + ' is listening to incoming messages');
    });

    app.post('/screenshot', (req, res) => {
        const domain = req.body.domain;

        getScreenshot(domain)
            .then((screenshot) =>
                try {
                    process.send({ domain: domain });
                } catch (error) {
                    console.error('Error while exiting worker ' + process.pid + ' due to: ' + error);
                }

                res.status(200).json({ screenshot: screenshot });
            })
            .catch((error) => {
                try {
                    process.send({ domain: domain });
                } catch (error) {
                    console.error('Error while exiting worker ' + process.pid + ' due to: ' + error);
                }

                res.status(500).json({ error: error });
            });
    });
}

一些解释:

  1. 每次请求到达时,工作人员都会处理它并在最后自杀
  2. 每个工作人员使用单个页面创建一个新的浏览器实例,如果一个页面加载超过60秒,它将重试重新加载它(在同一页面中,因为可能已经加载了一些资源),超时为120秒
  3. 完成后,页面和浏览器都将关闭

我的问题是,一些合法的域名出现了我无法解释的错误:

Error: Protocol error (Page.navigate): Target closed.
Error: Protocol error (Runtime.callFunctionOn): Session closed. Most likely the page has been closed.

我读了一些git问题(我现在找不到),当页面重定向并在开始时添加'www'时会发生这种情况,但我希望它是假的...有什么我缺少的吗?

node.js web-scraping puppeteer google-chrome-headless node-cluster
1个回答
2
投票

什么“目标关闭”的意思

当您通过puppeteer.launch启动浏览器时,它将启动浏览器并连接到它。从那里你在打开的浏览器上执行的任何功能(如page.goto)将通过Chrome DevTools Protocol发送到浏览器。目标在此上下文中表示选项卡。

当您尝试运行函数时,会抛出Target关闭异常,但目标(选项卡)已经关闭。

类似的错误消息

最近更改了错误消息以提供更有意义的信息。它现在给出以下消息:

错误:协议错误(Target.activateTarget):会话已关闭。页面很可能已关闭。


为什么会这样

这可能发生的原因有多种。

  • 您使用了已关闭的资源 最有可能的是,您看到此消息是因为您关闭了标签/浏览器并仍在尝试使用该资源。举个简单的例子: const browser = await puppeteer.launch(); const page = await browser.newPage(); await browser.close(); await page.goto('http://www.google.com'); 在这种情况下,浏览器被关闭,之后,调用page.goto导致错误消息。大多数时候,它不会那么明显。也许错误处理程序在清理任务期间已经关闭了页面,而您的脚本仍在爬行。
  • 浏览器崩溃或无法初始化 每隔几百个请求我也会遇到这个问题。木偶戏库也有一个issue about this。当您使用大量内存或CPU电源时,似乎就是这种情况。也许你正在催生很多浏览器?在这些情况下,浏览器可能会崩溃或断开连接 我没有发现这个问题的“银弹”解决方案。但您可能想查看库puppeteer-cluster(免责声明:我是作者)处理这类错误案例,让您在错误发生时重试URL。它还可以管理浏览器实例池,还可以简化代码。
© www.soinside.com 2019 - 2024. All rights reserved.