DOMDocument有时会返回混乱的字符

Question

我需要在php中从外部网站中提取DOM。我尝试过测试URL，但有时它会显示许多中文字母:)（更具体地说，我在unicode中的字符）很奇怪，如果我使用不同的链接，它可以工作，但如果我使用下面的链接并运行php例如3时间，在3.尝试它停止工作（但对于1，一个2.时间它显示正常的DOM结构）

网址：https://www.csfd.cz/film/300902-bohemian-rhapsody/prehled/

3.（ca.）运行后的DOM：https://i.stack.imgur.com/lnM1I.png

码：

$doc = new \DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTMLFile("https://www.csfd.cz/film/300902-bohemian-rhapsody/prehled/");
dd($doc->saveHTML());

有谁知道，该怎么办？

Answer 1

我想这是因为网站压缩，你可以使用good old curl提取数据：

<?php

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'https://www.csfd.cz/film/300902-bohemian-rhapsody/prehled/');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET');

curl_setopt($ch, CURLOPT_ENCODING, 'gzip, deflate');

$headers = array();
$headers[] = 'Connection: keep-alive';
$headers[] = 'Cache-Control: max-age=0';
$headers[] = 'Save-Data: on';
$headers[] = 'Upgrade-Insecure-Requests: 1';
$headers[] = 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36';
$headers[] = 'Dnt: 1';
$headers[] = 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8';
$headers[] = 'Accept-Encoding: gzip, deflate, br';
$headers[] = 'Accept-Language: en-US;q=0.8,en;q=0.7,uk;q=0.6';
$headers[] = 'Cookie: nette-samesite=1; developers-ad=1;';
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

$result = curl_exec($ch);
if (curl_errno($ch)) {
    echo 'Error:' . curl_error($ch);
}
curl_close ($ch);

$doc = new \DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTML($result);
dd($doc->saveHTML());

DOMDocument有时会返回混乱的字符

问题描述投票：1回答：1

1个回答

最新问题

DOMDocument有时会返回混乱的字符

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1