Python的hashlib提供了常見的摘要算法,如MD5,SHA1等等。
什么是摘要算法呢?摘要算法又稱哈希算法、散列算法。它通過一個(gè)函數(shù),把任意長度的數(shù)據(jù)轉(zhuǎn)換為一個(gè)長度固定的數(shù)據(jù)串(通常用16進(jìn)制的字符串表示)。
舉個(gè)例子,你寫了一篇文章,內(nèi)容是一個(gè)字符串'how to use python hashlib - by Michael',并附上這篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了你的文章,并發(fā)表為'how to use python hashlib - by Bob',你可以一下子指出Bob篡改了你的文章,因?yàn)楦鶕?jù)'how to use python hashlib - by Bob'計(jì)算出的摘要不同于原始文章的摘要。
可見,摘要算法就是通過摘要函數(shù)f()對任意長度的數(shù)據(jù)data計(jì)算出固定長度的摘要digest,目的是為了發(fā)現(xiàn)原始數(shù)據(jù)是否被人篡改過。
摘要算法之所以能指出數(shù)據(jù)是否被篡改過,就是因?yàn)檎瘮?shù)是一個(gè)單向函數(shù),計(jì)算f(data)很容易,但通過digest反推data卻非常困難。而且,對原始數(shù)據(jù)做一個(gè)bit的修改,都會(huì)導(dǎo)致計(jì)算出的摘要完全不同。
我們以常見的摘要算法MD5為例,計(jì)算出一個(gè)字符串的MD5值:
1
2
3
4
5
|
import hashlib md5 = hashlib.md5() md5.update( 'how to use md5 in python hashlib?' ) print md5.hexdigest() |
計(jì)算結(jié)果如下:
1
|
d26a53750bc40b38b65a520292f69306 |
如果數(shù)據(jù)量很大,可以分塊多次調(diào)用update(),最后計(jì)算的結(jié)果是一樣的:
1
2
3
4
|
md5 = hashlib.md5() md5.update( 'how to use md5 in ' ) md5.update( 'python hashlib?' ) print md5.hexdigest() |
試試改動(dòng)一個(gè)字母,看看計(jì)算的結(jié)果是否完全不同。
MD5是最常見的摘要算法,速度很快,生成結(jié)果是固定的128 bit字節(jié),通常用一個(gè)32位的16進(jìn)制字符串表示。
另一種常見的摘要算法是SHA1,調(diào)用SHA1和調(diào)用MD5完全類似:
1
2
3
4
5
6
|
import hashlib sha1 = hashlib.sha1() sha1.update( 'how to use sha1 in ' ) sha1.update( 'python hashlib?' ) print sha1.hexdigest() |
SHA1的結(jié)果是160 bit字節(jié),通常用一個(gè)40位的16進(jìn)制字符串表示。
比SHA1更安全的算法是SHA256和SHA512,不過越安全的算法越慢,而且摘要長度更長。
有沒有可能兩個(gè)不同的數(shù)據(jù)通過某個(gè)摘要算法得到了相同的摘要?完全有可能,因?yàn)槿魏握惴ǘ际前褵o限多的數(shù)據(jù)集合映射到一個(gè)有限的集合中。這種情況稱為碰撞,比如Bob試圖根據(jù)你的摘要反推出一篇文章'how to learn hashlib in python - by Bob',并且這篇文章的摘要恰好和你的文章完全一致,這種情況也并非不可能出現(xiàn),但是非常非常困難。
摘要算法應(yīng)用
摘要算法能應(yīng)用到什么地方?舉個(gè)常用例子:
任何允許用戶登錄的網(wǎng)站都會(huì)存儲(chǔ)用戶登錄的用戶名和口令。如何存儲(chǔ)用戶名和口令呢?方法是存到數(shù)據(jù)庫表中:
1
2
3
4
5
|
name | password - - - - - - - - + - - - - - - - - - - michael | 123456 bob | abc999 alice | alice2008 |
如果以明文保存用戶口令,如果數(shù)據(jù)庫泄露,所有用戶的口令就落入黑客的手里。此外,網(wǎng)站運(yùn)維人員是可以訪問數(shù)據(jù)庫的,也就是能獲取到所有用戶的口令。
正確的保存口令的方式是不存儲(chǔ)用戶的明文口令,而是存儲(chǔ)用戶口令的摘要,比如MD5:
1
2
3
4
5
|
username | password - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - michael | e10adc3949ba59abbe56e057f20f883e bob | 878ef96e86145580c38c87f0410ad153 alice | 99b1c2188db85afee403b1536010c2c9 |
當(dāng)用戶登錄時(shí),首先計(jì)算用戶輸入的明文口令的MD5,然后和數(shù)據(jù)庫存儲(chǔ)的MD5對比,如果一致,說明口令輸入正確,如果不一致,口令肯定錯(cuò)誤。
練習(xí):根據(jù)用戶輸入的口令,計(jì)算出存儲(chǔ)在數(shù)據(jù)庫中的MD5口令:
1
2
|
def calc_md5(password): pass |
存儲(chǔ)MD5的好處是即使運(yùn)維人員能訪問數(shù)據(jù)庫,也無法獲知用戶的明文口令。
練習(xí):設(shè)計(jì)一個(gè)驗(yàn)證用戶登錄的函數(shù),根據(jù)用戶輸入的口令是否正確,返回True或False:
1
2
3
4
5
6
7
8
|
db = { 'michael' : 'e10adc3949ba59abbe56e057f20f883e' , 'bob' : '878ef96e86145580c38c87f0410ad153' , 'alice' : '99b1c2188db85afee403b1536010c2c9' } def login(user, password): pass |
采用MD5存儲(chǔ)口令是否就一定安全呢?也不一定。假設(shè)你是一個(gè)黑客,已經(jīng)拿到了存儲(chǔ)MD5口令的數(shù)據(jù)庫,如何通過MD5反推用戶的明文口令呢?暴力破解費(fèi)事費(fèi)力,真正的黑客不會(huì)這么干。
考慮這么個(gè)情況,很多用戶喜歡用123456,888888,password這些簡單的口令,于是,黑客可以事先計(jì)算出這些常用口令的MD5值,得到一個(gè)反推表:
1
2
3
|
'e10adc3949ba59abbe56e057f20f883e' : '123456' '21218cca77804d2ba1922c33e0151105' : '888888' '5f4dcc3b5aa765d61d8327deb882cf99' : 'password' |
這樣,無需破解,只需要對比數(shù)據(jù)庫的MD5,黑客就獲得了使用常用口令的用戶賬號。
對于用戶來講,當(dāng)然不要使用過于簡單的口令。但是,我們能否在程序設(shè)計(jì)上對簡單口令加強(qiáng)保護(hù)呢?
由于常用口令的MD5值很容易被計(jì)算出來,所以,要確保存儲(chǔ)的用戶口令不是那些已經(jīng)被計(jì)算出來的常用口令的MD5,這一方法通過對原始口令加一個(gè)復(fù)雜字符串來實(shí)現(xiàn),俗稱“加鹽”:
1
2
|
def calc_md5(password): return get_md5(password + 'the-Salt' ) |
經(jīng)過Salt處理的MD5口令,只要Salt不被黑客知道,即使用戶輸入簡單口令,也很難通過MD5反推明文口令。
但是如果有兩個(gè)用戶都使用了相同的簡單口令比如123456,在數(shù)據(jù)庫中,將存儲(chǔ)兩條相同的MD5值,這說明這兩個(gè)用戶的口令是一樣的。有沒有辦法讓使用相同口令的用戶存儲(chǔ)不同的MD5呢?
如果假定用戶無法修改登錄名,就可以通過把登錄名作為Salt的一部分來計(jì)算MD5,從而實(shí)現(xiàn)相同口令的用戶也存儲(chǔ)不同的MD5。
練習(xí):根據(jù)用戶輸入的登錄名和口令模擬用戶注冊,計(jì)算更安全的MD5:
1
2
3
4
|
db = {} def register(username, password): db[username] = get_md5(password + username + 'the-Salt' ) |
然后,根據(jù)修改后的MD5算法實(shí)現(xiàn)用戶登錄的驗(yàn)證:
1
2
|
def login(username, password): pass |
小結(jié)
摘要算法在很多地方都有廣泛的應(yīng)用。要注意摘要算法不是加密算法,不能用于加密(因?yàn)闊o法通過摘要反推明文),只能用于防篡改,但是它的單向計(jì)算特性決定了可以在不存儲(chǔ)明文口令的情況下驗(yàn)證用戶口令。