我有以下函数可以将 unicode 转换为 HTML 实体,但是如果我在结果上再次运行该函数,它不会保持 HTML 实体不变。 我怎样才能让函数保留已经转换的 HTML 实体?
sub convert_unicode {
use HTML::Entities;
use Encode;
my $str = shift;
Encode::_utf8_off($str);
return encode_entities(decode('utf8',$str));
}
您所要求的是能够安全地进行双字符编码。某些编码允许这样做。 HTML 字符编码不会,因为它使用某些字符(如
&
)进行编码,并且无法区分用于编码的特殊字符和需要编码的特殊字符之间的区别。
例如...
use HTML::Entities;
use v5.10;
say encode_entities("&foo");
这会产生
&foo
。如果我们再次对其进行编码,它会产生 &foo
,因为 &
是它忠实编码的特殊字符。 它不知道 &
是已经编码的 &
,因此它将其视为文字 &
并对其进行编码。
您可以编写自己的自定义HTML编码函数,假设
&xxx;
(及其变体)已经编码,但这只是一个猜测。您实际上无法区分文字 &foo;
和编码的 &foo;
。例如,它会破坏像 &function;
这样的老式 Perl 代码。也许你可以“超级聪明”,使用一个对象数组来指示哪些部分被编码,并让整个东西重载字符串化,这样它看起来像一个字符串,只要一切都小心地保留那个看起来像字符串的对象就可以了。会工作...
现在我们进入了熔岩流反模式,其中不是修复糟糕的设计,而是在其之上分层了更复杂和糟糕的设计。试图“解决”这个问题只会产生更多问题。真正的问题更深层次。
真正的问题是您要进行多次编码。这可能意味着您已经将格式和功能结合在一起。例如...sub get_user_name {
my $uid = shift;
my $name = ...do a bunch of work to get the user name...
return encode_entities($name);
}
通过对数据进行 HTML 编码,这样的函数可以假设数据将如何使用。它将其使用限制为仅 HTML。如果你的所有函数都这样做,那么你就会遇到双重编码问题。
那么也许你有这样的事情:
sub do_something {
my $uid = shift;
# $name is already HTML encoded.
my $name = get_user_name($uid);
my $stuff = ...something incorporating $name...
# Whoops, the user name is double encoded.
return encode_entities($stuff);
}
答案是将 HTML 格式和编码留到最后一刻。理想情况下根本不要这样做,只需处理数据并让 HTML 模板系统来处理它。模板工具包
,例如。 这还提供了格式和代码之间的清晰分离,因此现在非程序员可以使用记录的模板系统来处理格式。
sub convert_unicode {
use HTML::Entities;
use Encode;
my $str = shift;
Encode::_utf8_off($str);
return encode_entities(decode_entities(decode('utf8',$str)));
}