如何在 Unicode/UCS 代码点和 UTF16 代理项对之间进行转换？

Question

如何在 C++14 及更高版本中在 Unicode/UCS 代码点和 UTF16 代理对之间来回转换？

编辑：删除了 UCS-2 代理的提及，因为没有这样的东西。谢谢@remy-lebeau！

Answer 1

代理对标签信息页面解释了（比§3.9，表3-5中的Unicode标准9.0指定的更好。）从代码点转换为代理对的算法如下：

基本多语言平面之外的 Unicode 字符，即代码高于 0xFFFF 的字符，通过以下方案通过称为代理对的 16 位代码单元对以 UTF-16 进行编码：

从代码点中减去 0x010000，留下 0..0x0FFFFF 范围内的 20 位数字；

前十位（0..0x03FF范围内的数字）添加到0xD800以给出第一个代码单元或高代理项，其范围为0xD800..0xDBFF；

低十位（也在 0..0x03FF 范围内）添加到 0xDC00 以给出第二个代码单元或低代理项，其范围为 0xDC00..0xDFFF。

在 C++14 及更高版本中，可以写为：

#include <cstdint>

using codepoint = std::uint32_t;
using utf16 = std::uint16_t;

struct surrogate {
    utf16 high; // Leading
    utf16 low;  // Trailing
};

constexpr surrogate split(codepoint const in) noexcept {
    auto const inMinus0x10000 = (in - 0x10000);
    surrogate const r{
            static_cast<utf16>((inMinus0x10000 / 0x400) + 0xd800), // High
            static_cast<utf16>((inMinus0x10000 % 0x400) + 0xdc00)}; // Low
    return r;
}

在相反方向，只需将高代理项的最后 10 位和低代理项的最后 10 位组合起来，然后添加

0x10000

:

constexpr codepoint combine(surrogate const s) noexcept {
    return static_cast<codepoint>(
            ((s.high - 0xd800) * 0x400) + (s.low - 0xdc00) + 0x10000);
}

以下是对这些转换的测试：

#include <cassert>

constexpr bool isValidUtf16Surrogate(utf16 v) noexcept
{ return (v & 0xf800) == 0xd800; }

constexpr bool isValidCodePoint(codepoint v) noexcept {
    return (v <= 0x10ffff)
        && ((v >= 0x10000) || !isValidUtf16Surrogate(static_cast<utf16>(v)));
}

constexpr bool isValidUtf16HighSurrogate(utf16 v) noexcept
{ return (v & 0xfc00) == 0xd800; }

constexpr bool isValidUtf16LowSurrogate(utf16 v) noexcept
{ return (v & 0xfc00) == 0xdc00; }

constexpr bool codePointNeedsUtf16Surrogates(codepoint v) noexcept
{ return (v >= 0x10000) && (v <= 0x10ffff); }

void test(codepoint const in) {
    assert(isValidCodePoint(in));
    assert(codePointNeedsUtf16Surrogates(in));
    auto const s = split(in);
    assert(isValidUtf16HighSurrogate(s.high));
    assert(isValidUtf16LowSurrogate(s.low));
    auto const out = combine(s);
    assert(isValidCodePoint(out));
    assert(in == out);
}

int main() {
    for (codepoint c = 0x10000; c <= 0x10ffff; ++c)
        test(c);
}

Answer 2

在 C++11 及更高版本中，您可以使用

std::wstring_convert

在各种 UTF/UCS 编码之间进行转换，使用以下

std::codecvt

类型：

UTF-8 <->UCS-2：
```
std::codecvt_utf8<char16_t>
```
UTF-8 <->UTF-16：
```
std::codecvt_utf8_utf16
```
UTF-8 <-> UTF-32/UCS-4：
```
std::codecvt_utf8<char32_t>
```
UCS-2 <->UTF-16：
```
std::codecvt_utf16<char16_t>
```
UTF-16 <-> UTF-32/UCS-4：
```
std::codecvt_utf16<char32_t>
```
UCS-2 <-> UTF-32/UCS-4：
没有标准转换，但如果需要，您可以为其编写自己的
```
std::codecvt
```
类。否则，请在两者之间使用上述转换之一：
```
UCS-2 <-> UTF-X <-> UTF-32/UCS-4
```

您不需要手动处理代理。

您可以使用

std::u32string

来保存您的代码点，并使用

std::u16string

来保存您的 UTF-16/UCS-2 代码单元。

例如：

using convert_utf16_uf32 = std::wstring_convert<std::codecvt_utf16<char32_t>, char16_t>;

std::u16string CodepointToUTF16(const char32_t codepoint)
{
    const char32_t *p = &codepoint;
    return convert_utf16_uf32{}.from_bytes(
        reinterpret_cast<const char*>(p),
        reinterpret_cast<const char*>(p+1)
    );
}

std::u16string UTF32toUTF16(const std::u32string &str)
{
    return convert_utf16_uf32{}.from_bytes(
        reinterpret_cast<const char*>(str.data()),
        reinterpret_cast<const char*>(str.data()+str.size())
    );
}

char32_t UTF16toCodepoint(const std::u16string &str)
{
    std::string bytes = convert_utf16_uf32{}.to_bytes(str);
    return *(reinterpret_cast<const char32_t*>(bytes.data()));
}

std::u32string UTF16toUTF32(const std::u16string &str)
{
    std::string bytes = convert_utf16_uf32{}.to_bytes(str);
    return std::u32string(
       reinterpret_cast<const char32_t*>(bytes.data()),
       bytes.size() / sizeof(char32_t)
    );
}

Answer 3

或者在汇编程序中，您可以简单地这样做（其中数字位于 eax 寄存器中）：

SUB EAX,10000h      ;convert to 20-bit number in the range 0-0FFFFFh
MOV EDX,EAX         ;keep number in edx
SHR EAX,10          ;move the top 10 bits into AX
ADD EAX,0D800h      ;get the first surrogate in the range 0D800h to 0DBFFh
STOSW               ;use that in destination
MOV EAX,EDX         ;restore number from earlier
AND EAX,3FFh        ;keep only the bottom 10 bits
ADD EAX,0DC00h      ;get the second surrogate in the range 0DC00h to 0DFFFh
STOSW               ;use that in destination

如何在 Unicode/UCS 代码点和 UTF16 代理项对之间进行转换？

问题描述投票：0回答：3

3个回答

最新问题

如何在 Unicode/UCS 代码点和 UTF16 代理项对之间进行转换？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3