python：Windows终端中的unicode，使用的编码？

Question

我在 Windows 7 终端中使用 Python 解释器。
我正在尝试了解 unicode 和编码。

我输入：

>>> s='ë'
>>> s
'\x89'
>>> u=u'ë'
>>> u
u'\xeb'

问题1：为什么字符串

中使用的编码与unicode字符串

中使用的编码不同？

我继续，然后输入：

>>> us=unicode(s)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0x89 in position 0: ordinal
not in range(128)
>>> us=unicode(s, 'latin-1')
>>> us
u'\x89'

问题2：我尝试使用

latin-1

编码来将字符串转换为unicode字符串（实际上，我首先尝试了很多其他编码，包括

utf-8

）。如何找出终端使用哪种编码来编码我的字符串？

问题3：如何让终端将

ë

打印为
ë
而不是
'\x89'
或
u'xeb'
？嗯，愚蠢的我。

print(s)

完成工作。

我已经看过这个相关的SO问题，但没有任何线索：在Windows上设置Python终端编码

Answer 1

Unicode 不是一种编码。您编码为字节字符串并解码为 Unicode：

>>> '\x89'.decode('cp437')
u'\xeb'
>>> u'\xeb'.encode('cp437')
'\x89'
>>> u'\xeb'.encode('utf8')
'\xc3\xab'

Windows 终端使用 DOS 的旧代码页。对于美国 Windows 来说是：

>>> import sys
>>> sys.stdout.encoding
'cp437'

Windows 应用程序使用 Windows 代码页。 Python 的 IDLE 将显示 Windows 编码：

>>> import sys
>>> sys.stdout.encoding
'cp1252'

您的结果可能会有所不同。

Answer 2

避免使用 Windows 终端

我并不是冒险说“终端”，更恰当地说，Windows 7 附带的“DOS 提示符”绝对是垃圾。它在 Windows 95、NT、XP、Vista 和 7 中很糟糕。也许他们用 Powershell 修复了它，我不知道。然而，它表明了当时困扰微软操作系统开发的问题。

改为输出到文件

设置

PYTHONIOENCODING

环境变量，然后将输出重定向到文件。

set PYTHONIOENCODING=utf-8

./myscript.py > output.txt

然后使用 Notepad++ 您可以看到输出的 UTF-8 版本。

安装 win-unicode-console

win-unicode-console 可以解决您的问题。你应该尝试一下

pip install win-unicode-console

如果您对 Python 和命令行输出问题的深入讨论感兴趣，请查看 Python 问题 1602。否则，只需使用 win-unicode-console 包即可。

py -m run script.py

按脚本运行它，或者您可以按照他们的指示将

win_unicode_console.enable()

添加到每个调用中，方法是将其添加到

usercustomize

或

sitecustomize

。

Answer 3

以防其他人在搜索时看到此页面最简单的方法是先在终端中设置代码页

CHCP 65001