前言
上回说到,群里有网友说不要用 MD5 计算哈希:
这是为什么呢?.
MD5 碰撞
如果 2 个文件计算出的哈希值一样,则可以认为它们是同一文件。
真的是这样吗?
其实,安全专家已经证明了,MD5 存在碰撞风险,即不同的输入数据,可以生成相同的 MD5 哈希值。
下面是示例代码:
var file1 = new byte[] {
0xd1, 0x31, 0xdd, 0x02, 0xc5, 0xe6, 0xee, 0xc4, 0x69, 0x3d, 0x9a, 0x06, 0x98, 0xaf, 0xf9, 0x5c,
0x2f, 0xca, 0xb5, 0x87, 0x12, 0x46, 0x7e, 0xab, 0x40, 0x04, 0x58, 0x3e, 0xb8, 0xfb, 0x7f, 0x89,
0x55, 0xad, 0x34, 0x06, 0x09, 0xf4, 0xb3, 0x02, 0x83, 0xe4, 0x88, 0x83, 0x25, 0x71, 0x41, 0x5a,
0x08, 0x51, 0x25, 0xe8, 0xf7, 0xcd, 0xc9, 0x9f, 0xd9, 0x1d, 0xbd, 0xf2, 0x80, 0x37, 0x3c, 0x5b,
0xd8, 0x82, 0x3e, 0x31, 0x56, 0x34, 0x8f, 0x5b, 0xae, 0x6d, 0xac, 0xd4, 0x36, 0xc9, 0x19, 0xc6,
0xdd, 0x53, 0xe2, 0xb4, 0x87, 0xda, 0x03, 0xfd, 0x02, 0x39, 0x63, 0x06, 0xd2, 0x48, 0xcd, 0xa0,
0xe9, 0x9f, 0x33, 0x42, 0x0f, 0x57, 0x7e, 0xe8, 0xce, 0x54, 0xb6, 0x70, 0x80, 0xa8, 0x0d, 0x1e,
0xc6, 0x98, 0x21, 0xbc, 0xb6, 0xa8, 0x83, 0x93, 0x96, 0xf9, 0x65, 0x2b, 0x6f, 0xf7, 0x2a, 0x70
};
var file2 = new byte[] {
0xd1, 0x31, 0xdd, 0x02, 0xc5, 0xe6, 0xee, 0xc4, 0x69, 0x3d, 0x9a, 0x06, 0x98, 0xaf, 0xf9, 0x5c,
0x2f, 0xca, 0xb5, 0x07, 0x12, 0x46, 0x7e, 0xab, 0x40, 0x04, 0x58, 0x3e, 0xb8, 0xfb, 0x7f, 0x89,
0x55, 0xad, 0x34, 0x06, 0x09, 0xf4, 0xb3, 0x02, 0x83, 0xe4, 0x88, 0x83, 0x25, 0xf1, 0x41, 0x5a,
0x08, 0x51, 0x25, 0xe8, 0xf7, 0xcd, 0xc9, 0x9f, 0xd9, 0x1d, 0xbd, 0x72, 0x80, 0x37, 0x3c, 0x5b,
0xd8, 0x82, 0x3e, 0x31, 0x56, 0x34, 0x8f, 0x5b, 0xae, 0x6d, 0xac, 0xd4, 0x36, 0xc9, 0x19, 0xc6,
0xdd, 0x53, 0xe2, 0x34, 0x87, 0xda, 0x03, 0xfd, 0x02, 0x39, 0x63, 0x06, 0xd2, 0x48, 0xcd, 0xa0,
0xe9, 0x9f, 0x33, 0x42, 0x0f, 0x57, 0x7e, 0xe8, 0xce, 0x54, 0xb6, 0x70, 0x80, 0x28, 0x0d, 0x1e,
0xc6, 0x98, 0x21, 0xbc, 0xb6, 0xa8, 0x83, 0x93, 0x96, 0xf9, 0x65, 0xab, 0x6f, 0xf7, 0x2a, 0x70,
};
using(var md5 = new MD5CryptoServiceProvider())
{
Console.WriteLine($"file1 MD5 hash: {md5.ComputeHash(file1).ToHexStr()}");
Console.WriteLine($"file2 MD5 hash: {md5.ComputeHash(file2).ToHexStr()}");
}
//输出
file1 MD5 hash: 79054025255fb1a26e4bc422aef54eb4
file2 MD5 hash: 79054025255fb1a26e4bc422aef54eb4
file1
、file2
代表2个文件,内容是不同的(比如第 2 行,第 4 列 0x87
、0x07
),但是最后计算出的哈希值却是一样的。
那是不是很容易产生 MD5 碰撞呢?
MD5 是由 16 进制数组成的 32 位字符串,从碰撞概率上来说,大概为 1/16^32。
换句话说,不同的文件几乎不可能具有相同的哈希值。
但是,这是指在完全随机的情况下。而利用工具,是可以轻松生成相同哈希值的文件的。
想象一下,由于网速问题,你从第三方网站下载了程序,并且算出的 MD5 哈希与官方提供的一致,你就认为文件是安全的,其实可能是木马程序。
结论
那是否继续使用 MD5 哈希,我觉得可以依据实际情况而定:
-
如果仅校验数据是否损坏,MD5 仍然是可接受的 -
如果要用于安全验证,最好使用更安全的算法
目前,一般是使用 SHA256 进行哈希验证:
C# 的实现代码如下:
using(var sha256 = new SHA256CryptoServiceProvider())
{
Console.WriteLine($"file1 SHA256 hash: {sha256.ComputeHash(file1).ToHexStr()}");
Console.WriteLine($"file2 SHA256 hash: {sha256.ComputeHash(file2).ToHexStr()}");
}
//输出
file1 SHA256 hash: 8d12236e5c4ed9f4e790db4d868fd5c399df267e18ff65c1107c328228cffc98
file2 SHA256 hash: b9fef2a8fc93b05e7701e97196fda6c4fbeea25ff8e64fdfee7015eca8fa617d