将字符串转换为随机但确定性可重复的均匀概率

问题描述 投票:6回答:1

如何转换字符串,例如用户ID加盐,在半开放范围[0.0,1.0]中随机查看但实际上是确定性可重复的均匀概率?这个means表示输出≥0.0且<1.0。无论输入分布如何,输出分布必须是均匀的。例如,如果输入字符串是'a3b2Foobar',则输出概率可以重复为0.40341504。

需要跨语言和跨平台的算法再现性。除非有更好的方法,否则我倾向于使用哈希函数。这是我有的:

>>> in_str = 'a3b2Foobar'
>>> (int(hashlib.sha256(in_str.encode()).hexdigest(), 16) % 1e8) / 1e8
0.40341504

我正在使用最新的稳定Python 3.请注意,这个问题与convert an integer to a random but deterministically repeatable choice的相关问题相似但不完全相同。

python random hashlib
1个回答
17
投票

Using hash

加密散列可以是[0,MAX_HASH]范围内的均匀分布的整数。因此,通过将其除以MAX_HASH + 1,可以将其缩放到[0,1]范围内的浮点数。

import hashlib

Hash = hashlib.sha512
MAX_HASH_PLUS_ONE = 2**(Hash().digest_size * 8)

def str_to_probability(in_str):
    """Return a reproducible uniformly random float in the interval [0, 1) for the given string."""
    seed = in_str.encode()
    hash_digest = Hash(seed).digest()
    hash_int = int.from_bytes(hash_digest, 'big')  # Uses explicit byteorder for system-agnostic reproducibility
    return hash_int / MAX_HASH_PLUS_ONE  # Float division

>>> str_to_probability('a3b2Foobar')
0.3659629991207491

笔记:

  • 不得使用内置的hash方法,因为它可以保留输入的分布,例如,与hash(123)。或者,它可以返回重新启动Python时不同的值,例如与hash('123')
  • 因为浮动分割就足够了,所以不需要使用模数。

Using random

random模块可以与in_str一起使用,同时解决围绕thread safety和连续性的问题。

使用这种方法,不仅需要考虑跨语言的可重复性,而且跨多个未来版本的Python的可重复性也可能是一个问题。因此不建议这样做。

import random

def str_to_probability(in_str):
    """Return a reproducible uniformly random float in the interval [0, 1) for the given seed."""
    return random.Random(in_str).random()

>>> str_to_probability('a3b2Foobar')
0.4662507245848473
© www.soinside.com 2019 - 2024. All rights reserved.