如何替换字符串中的十六进制值

Question

从平面文件导入数据时，我注意到字符串中有一些嵌入的十六进制值（<0x00>，<0x01>）。

我想用特定字符替换它们，但我无法这样做。删除它们也不起作用。它在导出的平面文件中的样子：https://i.imgur.com/7MQpoMH.png另一个例子：https://i.imgur.com/3ZUSGIr.png

这就是我所尝试的:(并且，请注意，<0x01>代表一个不可编辑的实体。这里没有被认出来。）

import io
with io.open('1.txt', 'r+', encoding="utf-8") as p:
    s=p.read()
# included in case it bears any significance

import re
import binascii

s = "Some string with hex: <0x01>"

s = s.encode('latin1').decode('utf-8')
# throws e.g.: >>> UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 114: invalid start byte

s = re.sub(r'<0x01>', r'.', s)
s = re.sub(r'\\0x01', r'.', s)
s = re.sub(r'\\\\0x01', r'.', s)
s = s.replace('\0x01', '.')
s = s.replace('<0x01>', '.')
s = s.replace('0x01', '.')

或者沿着这些方向的东西希望在迭代整个字符串时掌握它：

for x in s:
    try:
        base64.encodebytes(x)
        base64.decodebytes(x)
        s.strip(binascii.unhexlify(x))
        s.decode('utf-8')
        s.encode('latin1').decode('utf-8')
    except:
        pass

似乎没有什么能完成任务。

我希望这些角色可以用我挖出的方法替换，但它们不是。我错过了什么？注意：我必须保留变音符号（äöüÄÖÜ）

- 编辑：

我可以在导出时首先引入十六进制值吗？如果是这样，有没有办法避免这种情况？

with io.open('out.txt', 'w', encoding="utf-8") as temp:
    temp.write(s)

Answer 1

从图像来看，这些实际上是控制角色。您的编辑器以这种灰色的方式显示它们，使用十六进制表示法显示字节的值。你的数据中没有字符“0x01”，但实际上是一个值为1的字节，所以unhexlify和朋友们都无济于事。

在Python中，这些字符可以使用带有两个十六进制数字的符号\xHH在带有转义序列的字符串文字中生成。第一个图像中的片段可能等于以下字符串：

"sich z\x01 B. irgendeine"

您尝试删除它们的行为很接近。 s = s.replace('\x01', '.')应该工作。

如何替换字符串中的十六进制值

问题描述投票：0回答：1

1个回答

最新问题

如何替换字符串中的十六进制值

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1