C#为什么不要用MD5计算哈希?

前言

上回说到,群里有网友说不要用 MD5 计算哈希:

C#为什么不要用MD5计算哈希?

这是为什么呢?.

MD5 碰撞

如果 2 个文件计算出的哈希值一样,则可以认为它们是同一文件。

真的是这样吗?

其实,安全专家已经证明了,MD5 存在碰撞风险,即不同的输入数据,可以生成相同的 MD5 哈希值。

下面是示例代码:

var file1 = new byte[] {
    0xd1,  0x31,  0xdd,  0x02,  0xc5,  0xe6,  0xee,  0xc4,  0x69,  0x3d,  0x9a,  0x06,  0x98,  0xaf,  0xf9,  0x5c,
    0x2f,  0xca,  0xb5,  0x87,  0x12,  0x46,  0x7e,  0xab,  0x40,  0x04,  0x58,  0x3e,  0xb8,  0xfb,  0x7f,  0x89,
    0x55,  0xad,  0x34,  0x06,  0x09,  0xf4,  0xb3,  0x02,  0x83,  0xe4,  0x88,  0x83,  0x25,  0x71,  0x41,  0x5a,
    0x08,  0x51,  0x25,  0xe8,  0xf7,  0xcd,  0xc9,  0x9f,  0xd9,  0x1d,  0xbd,  0xf2,  0x80,  0x37,  0x3c,  0x5b,
    0xd8,  0x82,  0x3e,  0x31,  0x56,  0x34,  0x8f,  0x5b,  0xae,  0x6d,  0xac,  0xd4,  0x36,  0xc9,  0x19,  0xc6,
    0xdd,  0x53,  0xe2,  0xb4,  0x87,  0xda,  0x03,  0xfd,  0x02,  0x39,  0x63,  0x06,  0xd2,  0x48,  0xcd,  0xa0,
    0xe9,  0x9f,  0x33,  0x42,  0x0f,  0x57,  0x7e,  0xe8,  0xce,  0x54,  0xb6,  0x70,  0x80,  0xa8,  0x0d,  0x1e,
    0xc6,  0x98,  0x21,  0xbc,  0xb6,  0xa8,  0x83,  0x93,  0x96,  0xf9,  0x65,  0x2b,  0x6f,  0xf7,  0x2a,  0x70
};

var file2 = new byte[] {
    0xd1,  0x31,  0xdd,  0x02,  0xc5,  0xe6,  0xee,  0xc4,  0x69,  0x3d,  0x9a,  0x06,  0x98,  0xaf,  0xf9,  0x5c,
    0x2f,  0xca,  0xb5,  0x07,  0x12,  0x46,  0x7e,  0xab,  0x40,  0x04,  0x58,  0x3e,  0xb8,  0xfb,  0x7f,  0x89,
    0x55,  0xad,  0x34,  0x06,  0x09,  0xf4,  0xb3,  0x02,  0x83,  0xe4,  0x88,  0x83,  0x25,  0xf1,  0x41,  0x5a,
    0x08,  0x51,  0x25,  0xe8,  0xf7,  0xcd,  0xc9,  0x9f,  0xd9,  0x1d,  0xbd,  0x72,  0x80,  0x37,  0x3c,  0x5b,
    0xd8,  0x82,  0x3e,  0x31,  0x56,  0x34,  0x8f,  0x5b,  0xae,  0x6d,  0xac,  0xd4,  0x36,  0xc9,  0x19,  0xc6,
    0xdd,  0x53,  0xe2,  0x34,  0x87,  0xda,  0x03,  0xfd,  0x02,  0x39,  0x63,  0x06,  0xd2,  0x48,  0xcd,  0xa0,
    0xe9,  0x9f,  0x33,  0x42,  0x0f,  0x57,  0x7e,  0xe8,  0xce,  0x54,  0xb6,  0x70,  0x80,  0x28,  0x0d,  0x1e,
    0xc6,  0x98,  0x21,  0xbc,  0xb6,  0xa8,  0x83,  0x93,  0x96,  0xf9,  0x65,  0xab,  0x6f,  0xf7,  0x2a,  0x70,
};

using(var md5 = new MD5CryptoServiceProvider())
{
    Console.WriteLine($"file1 MD5 hash: {md5.ComputeHash(file1).ToHexStr()}");
    Console.WriteLine($"file2 MD5 hash: {md5.ComputeHash(file2).ToHexStr()}");
}

//输出
file1 MD5 hash: 79054025255fb1a26e4bc422aef54eb4
file2 MD5 hash: 79054025255fb1a26e4bc422aef54eb4

file1file2代表2个文件,内容是不同的(比如第 2 行,第 4 列 0x870x07),但是最后计算出的哈希值却是一样的。

那是不是很容易产生 MD5 碰撞呢?

MD5 是由 16 进制数组成的 32 位字符串,从碰撞概率上来说,大概为 1/16^32。

换句话说,不同的文件几乎不可能具有相同的哈希值。

但是,这是指在完全随机的情况下。而利用工具,是可以轻松生成相同哈希值的文件的。

C#为什么不要用MD5计算哈希?

想象一下,由于网速问题,你从第三方网站下载了程序,并且算出的 MD5 哈希与官方提供的一致,你就认为文件是安全的,其实可能是木马程序。

结论

那是否继续使用 MD5 哈希,我觉得可以依据实际情况而定:

  • 如果仅校验数据是否损坏,MD5 仍然是可接受的
  • 如果要用于安全验证,最好使用更安全的算法

目前,一般是使用 SHA256 进行哈希验证:

C#为什么不要用MD5计算哈希?

C# 的实现代码如下:

using(var sha256 = new SHA256CryptoServiceProvider())
{
    Console.WriteLine($"file1 SHA256 hash: {sha256.ComputeHash(file1).ToHexStr()}");
    Console.WriteLine($"file2 SHA256 hash: {sha256.ComputeHash(file2).ToHexStr()}");
}

//输出
file1 SHA256 hash: 8d12236e5c4ed9f4e790db4d868fd5c399df267e18ff65c1107c328228cffc98
file2 SHA256 hash: b9fef2a8fc93b05e7701e97196fda6c4fbeea25ff8e64fdfee7015eca8fa617d