如何从 HTML 实体中删除多个空格和换行符

问题描述 投票:0回答:1

我正在尝试使用codeigniter和simplehtmldom实现一个爬虫。

$page = "URL to be Crawled";
$html = file_get_html($page);
$ad_description = $html->find('#ad_description',-1);
$description = $ad_description->innertext;

$description
包含多个连续空格和换行符,我需要将其转换为单个外观。

我试过了

str_replace("\n\r",' ',$description),
reduce_multiples($ad_description->innertext,"\r")
preg_replace("/[\r\n]+/", "\n", $description)
ascii_to_entities($description,ENT_HTML5, "ISO-8859-1")

以及许多其他可能的选择,但没有成功。任何帮助将不胜感激。

php codeigniter newline simple-html-dom removing-whitespace
1个回答
0
投票

我认为 pref_replace 确实有效

$description = "This
is      a
test   string
";

echo $description = preg_replace('/\s+/', ' ', $description); // This is a test string 
© www.soinside.com 2019 - 2024. All rights reserved.