hash在python中做什么？

Question

我看到了一个代码示例，其中hash函数应用于元组。结果它返回一个负整数。我想知道这个功能是做什么的。谷歌没有帮助。我找到了一个页面，解释了如何计算哈希值，但它没有解释为什么我们需要这个函数。

Answer 1

A hash is an fixed sized integer that identifies a particular value。每个值都需要有自己的哈希值，因此对于相同的值，即使它不是同一个对象，也会得到相同的哈希值。

>>> hash("Look at me!")
4343814758193556824
>>> f = "Look at me!"
>>> hash(f)
4343814758193556824

需要以这样的方式创建散列值，使得结果值均匀分布，以减少您获得的散列冲突的数量。散列冲突是指两个不同的值具有相同的散列。因此，相对较小的变化通常会导致非常不同的哈希值。

>>> hash("Look at me!!")
6941904779894686356

这些数字非常有用，因为它们可以在大量值中快速查找值。他们使用的两个例子是Python的set和dict。在list中，如果你想检查一个值是否在列表中，使用if x in values:，Python需要遍历整个列表并将x与列表values中的每个值进行比较。这可能需要很长时间才能长时间使用list。在set中，Python跟踪每个哈希，当你输入if x in values:时，Python将获得x的哈希值，在内部结构中查找，然后只将x与具有与x相同哈希值的值进行比较。

相同的方法用于字典查找。这使得set和dict中的查找速度非常快，而list中的查找速度很慢。它还意味着你可以在list中拥有不可清洗的对象，但不能在set中或dict中的键。不可清除对象的典型示例是任何可变的对象，这意味着您可以更改其值。如果你有一个可变对象，它不应该是可散列的，因为它的散列会在其生命周期内发生变化，这会引起很多混乱，因为一个对象可能最终在字典中的错误散列值下。

请注意，对于一次Python运行，值的哈希值只需要相同。在Python 3.3中，它们实际上会针对每次新的Python运行进行更改：

$ /opt/python33/bin/python3
Python 3.3.2 (default, Jun 17 2013, 17:49:21) 
[GCC 4.6.3] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> hash("foo")
1849024199686380661
>>> 
$ /opt/python33/bin/python3
Python 3.3.2 (default, Jun 17 2013, 17:49:21) 
[GCC 4.6.3] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> hash("foo")
-7416743951976404299

这使得更难以猜测某个字符串将具有哪个哈希值，这是Web应用程序等的重要安全功能。

因此，不应永久存储散列值。如果您需要以永久方式使用哈希值，您可以查看更严重的哈希类型cryptographic hash functions，它们可用于制作可验证的文件校验和等。

Answer 2

TL; DR：

请参考the glossary：hash()用作比较对象的快捷方式，如果可以将对象与其他对象进行比较，则认为该对象是可清除的。这就是为什么我们使用hash()。它也用于访问dict和set元素，这些元素被实现为resizable hash tables in CPython。

技术考虑

通常比较对象（可能涉及多个级别的递归）是昂贵的。
优选地，hash()函数是一个数量级（或几个）更便宜的。
比较两个哈希比比较两个对象更容易，这就是快捷方式所在的位置。

如果您阅读有关how dictionaries are implemented的内容，他们会使用哈希表，这意味着从对象中获取密钥是用于在O(1)中检索字典中的对象的基石。然而，这非常依赖于您的哈希函数来抵抗冲突。词典中的worst case for getting an item实际上是O(n)。

在这方面，可变对象通常是不可清除的。 hashable属性意味着您可以将对象用作键。如果哈希值用作键并且同一对象的内容发生更改，那么哈希函数应该返回什么？是同一把钥匙还是另一把钥匙？这取决于您如何定义哈希函数。

通过实例学习：

想象一下，我们有这个课程：

>>> class Person(object):
...     def __init__(self, name, ssn, address):
...         self.name = name
...         self.ssn = ssn
...         self.address = address
...     def __hash__(self):
...         return hash(self.ssn)
...     def __eq__(self, other):
...         return self.ssn == other.ssn
...

请注意：这都是基于SSN永远不会改变个人的假设（甚至不知道从权威来源实际验证该事实的位置）。

我们有鲍勃：

>>> bob = Person('bob', '1111-222-333', None)

鲍勃去看法官改名：

>>> jim = Person('jim bo', '1111-222-333', 'sf bay area')

这就是我们所知道的：

>>> bob == jim
True

但这些是分配了不同内存的两个不同对象，就像同一个人的两个不同记录一样：

>>> bob is jim
False

现在，hash（）很方便：

>>> dmv_appointments = {}
>>> dmv_appointments[bob] = 'tomorrow'

你猜怎么着：

>>> dmv_appointments[jim] #?
'tomorrow'

从两个不同的记录中，您可以访问相同的信息。现在试试这个：

>>> dmv_appointments[hash(jim)]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 9, in __eq__
AttributeError: 'int' object has no attribute 'ssn'
>>> hash(jim) == hash(hash(jim))
True

刚刚发生了什么？那是一次碰撞。因为hash(jim) == hash(hash(jim))都是整数btw，我们需要比较__getitem__的输入和碰撞的所有项目。内置的int没有ssn属性所以它会跳闸。

>>> del Person.__eq__
>>> dmv_appointments[bob]
'tomorrow'
>>> dmv_appointments[jim]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: <__main__.Person object at 0x7f611bd37110>

在最后一个例子中，我表明即使碰撞，执行比较，对象也不再相等，这意味着它成功地引发了KeyError。

Answer 3

Python docs for hash()状态：

哈希值是整数。它们用于在字典查找期间快速比较字典键。

Python字典作为哈希表实现。因此，只要您使用字典，就会在传递给键进行分配或查找的键上调用hash()。

此外，docs for the dict type州：

不可清除的值，即包含列表，字典或其他可变类型（通过值而不是按对象标识进行比较）的值不能用作键。

Answer 4

字典和集合使用哈希来快速查找对象。一个很好的起点是维基百科关于hash tables的文章。

Answer 5

我也在很长一段时间内寻找它，现在我得到了答案，所以我和你们一起剪...

请使用python中的Dictionary数据类型，它非常类似于hash ...它还支持嵌套，对嵌套哈希的比较。

例：-

dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'}
dict['Age'] = 8; # update existing entry
dict['School'] = "DPS School" # Add new entry

print ("dict['Age']: ", dict['Age'])
print ("dict['School']: ", dict['School'])

字典数据类型： - https://www.tutorialspoint.com/python3/python_dictionary.htm

希望它能解决问题..

hash在python中做什么？

问题描述投票：56回答：5

5个回答

TL; DR：

技术考虑

通过实例学习：

最新问题

hash在python中做什么？

问题描述 投票：56回答：5

5个回答

TL; DR：

技术考虑

通过实例学习：

最新问题

问题描述投票：56回答：5