我正在对大量文件进行哈希处理,为了避免哈希冲突,我还存储了文件的原始大小 - 这样,即使存在哈希冲突,文件大小也不太可能相同。这是听起来的声音吗(哈希冲突同样可能是任何大小),还是我需要另一条信息(如果冲突更有可能与原始长度相同)。
或者,更一般地说:无论原始文件大小如何,每个文件都可能产生特定的哈希值吗?
哈希函数通常被编写为将数据均匀分布在所有结果桶中。
如果您假设您的文件均匀分布在固定的可用大小范围内,则可以说您的文件只有 1024 (2^10) 个均匀分布的不同大小。存储文件大小最多只能通过不同文件大小的数量来减少冲突的可能性。
注意:我们可以假设它是 2^32 均匀分布且大小不同,但它仍然不会改变其余的数学运算。
人们普遍认为,MD5 上发生碰撞的一般概率(例如)是
1/(2^128)
。
除非有专门内置到哈希函数中的东西另有说明。给定任何有效的
X
,使得 P(MD5(X) == MD5(X+1))
的概率与任意两个随机值 {Y
, Z
} 保持相同。 也就是说,对于P(MD5(Y) == MD5(Z))
、P(MD5(X) == MD5(X+1))
和 1/(2^128)
。将此与 2^10 个不同文件相结合意味着通过存储文件大小,您最多可以获得额外的 10 位来表示项目是否不同(同样假设您的文件对于所有值均匀分布)。
因此,您所做的最好的事情就是为
N) 添加另外 N 个字节的存储空间。因此,您最好使用 SHA-1/2 等内容来增加哈希函数返回的字节数,因为与存储文件大小相比,这更有可能为您提供均匀分布的哈希值数据。简而言之,如果 MD5 不足以防止冲突,请使用更强的哈希值,如果更强的哈希值太慢,则使用冲突几率较低的
fast
哈希值(例如 MD5),然后使用slower<=N bytes worth of unique values (it can never be >哈希值例如 SHA-1 或 SHA256 来减少碰撞的机会,但如果 SHA256 足够快并且双倍空间不是问题,那么您可能应该使用 SHA256。
取决于您的哈希函数,但一般来说,大小相同但内容不同的文件与不同大小的文件产生相同哈希的可能性较小。尽管如此,简单地使用经过时间考验的具有更大空间的哈希(例如,MD5 代替 CRC32,或 SHA1 代替 MD5)可能比押注于您自己的解决方案(例如存储文件大小)更干净。
,这意味着两个具有
相同哈希函数的设计方式是很难获得碰撞,否则它们不会有效。 如果你有哈希冲突,那是 绝对令人难以置信
约为 1 : number_of_possible_hashes 概率,与文件大小无关。
加密哈希系列(MD5、SHA-x 等)的全部目的是使冲突几乎不可能发生。这个概念是,官方法律程序准备好依赖于故意制造碰撞是不切实际的。所以,实际上,为这些哈希的吊带添加一条腰带是对空间和 CPU 时间的错误利用。
OP 正在存储文件的长度及其哈希值,并询问这是否会减少两个不同文件生成相同哈希值的机会。
旁注:您可以通过对文件进行“块散列”并存储一组散列来进一步减少这种情况。如果它们都匹配,那么几率就更小了。