在Python3中重新创建JS按位整数处理

Question

我需要将哈希函数从JavaScript转换为Python。

功能如下：

function getIndex(string) {
        var length = 27;
        string = string.toLowerCase();
        var hash = 0;
        for (var i = 0; i < string.length; i++) {
                hash = string.charCodeAt(i) + (hash << 6) + (hash << 16) - hash;
        }
        var index = Math.abs(hash % length);
        return index;
}

console.log(getIndex(window.prompt("Enter a string to hash")));

此功能是Objectively Correct™。这本身就是完美的。我无法改变它，我只需重新创建它。无论输出什么，我的Python脚本也必须输出。

但是 - 我遇到了一些问题，我认为这与两种语言处理有符号整数的方式有关。

JS按位运算符将其操作数视为32位序列。然而，Python没有位限制的概念，只是像绝对的疯子一样继续前进。我认为这是两种语言之间的一个相关区别。

我可以通过使用hash将其屏蔽为32位来限制Python中hash & 0xFFFFFFFF的长度。

我也可以否定hash，如果它高于0x7FFFFFFF与hash = hash ^ 0xFFFFFFFF（或hash = ~hash - 他们似乎都做同样的事情）。我相信这可以模拟负数。

我使用一个名为t的函数将这两个限制应用于哈希。

到目前为止，这是我的Python代码：

def nickColor(string):
    length = 27

    def t(x):
        x = x & 0xFFFFFFFF
        if x > 0x7FFFFFFF:
            x = x ^ 0xFFFFFFFF
        return x

    string = string.lower()
    hash = t(0)
    for letter in string:
        hash = t(hash)
        hash = t(t(ord(letter)) + t(hash << 6) + t(hash << 16) - t(hash))
    index = hash % length
    return index

它似乎工作到哈希需要变为负数的点，此时两个脚本分歧。这通常发生在字符串中大约4个字母。

我假设我的问题在于在Python中重新创建JS负数。我该怎么说再见这个问题？

Answer 1

这是一个有效的翻译：

def nickColor(string):
    length = 27

    def t(x):
        x &= 0xFFFF_FFFF
        if x > 0x7FFF_FFFF:
            x -= 0x1_0000_0000
        return float(x)

    bytes = string.lower().encode('utf-16-le')
    hash = 0.0
    for i in range(0, len(bytes), 2):
        char_code = bytes[i] + 256*bytes[i+1]
        hash = char_code + t(int(hash) << 6) + t(int(hash) << 16) - hash
    return int(hash % length if hash >= 0 else abs(hash % length - length))

关键是，只有移位（<<）被计算为32位整数运算，它们的结果是在进入加法和减法之前的converted back to double。我不熟悉两种语言中双精度浮点表示的规则，但可以安全地假设在所有个人计算设备和Web服务器上，两种语言都是相同的，即double-precision IEEE 754。对于非常长的字符串（数千个字符），哈希可能会失去一些精确度，这当然会影响最终结果，但在JS中与在Python中的方式相同（不是Objectively Correct™函数的作者想要的，但是它就是这样儿的…）。最后一行纠正了%和JavaScript中负操作数的Python算子的不同定义。

此外（感谢Mark Ransom提醒我这一点），要完全模拟JavaScript，还必须考虑它的编码，即UTF-16，但surrogate pairs处理就好像它们由2个字符组成。将字符串编码为utf-16-le你确保每个16位“单词”中的第一个字节是最不重要的字符，另外，如果你使用BOM tout court，你不会得到你会得到的utf-16（谢谢你Martijn Pieters ）。

在Python3中重新创建JS按位整数处理

问题描述投票：3回答：1

1个回答

最新问题

在Python3中重新创建JS按位整数处理

问题描述 投票：3回答：1

1个回答

最新问题

问题描述投票：3回答：1