今天項目中遇到了中文編碼的zip文件,處理了蠻長時間,所以記錄下,以免下次踩坑。
python2下
python2中讀取zip文件,zipfile.zipinfo的filename類型是str,基本上類似于python3中的bytes,即可以被decode為unicode。
所以,要處理中文,只需要將文件名按照編碼decode成unicode就好。
1
2
3
4
5
6
7
|
import zipfile fpath = '/path/to/zip.zip' zfile = zipfile.zipfile(fpath, 'r' ) for fileinfo in zfile.filelist: print fileinfo.filename.decode( 'gb18030' ) # 如果要更加詳細的區分bytes/str/unicode的語義 print bytes(fileinfo.filename).decode( 'gb18030' ) |
python3下
python3中,language encoding flag (efs)如果是1,則按照utf8來處理文件編碼,efs如果為0,則直接按照cp437解碼文件名。這是標準直接規定的。
但是,很多軟件在制作zip壓縮包的時候,直接使用gb18030或者其他非標準編碼格式來編碼文件名,所以我們還得將文件名反轉為bytes,然后再使用對應的編碼方式解碼:
1
2
3
4
|
fpath = '/path/to/zip.zip' zfile = zipfile.zipfile(fpath, 'r' ) for fileinfo in zfile.filelist: print (fileinfo.filename.encode( 'cp437' ).decode( 'gb18030' )) |
方法都有了,那直接根據文件名智能猜測文件編碼,然后解壓就好。但是由于單個文件名太短,chardet的猜測可能不準,所以我們可以直接將所有的文件名連接起來,猜測編碼。
代碼請參考 mczip ,兼容python2和python3。
總結
以上所述是小編給大家介紹的python 2/3下處理cjk編碼的zip文件的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對服務器之家網站的支持!
如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!原文鏈接:https://www.robberphex.com/2019/04/1022