問題
你需要將一個Python對象序列化為一個字節流,以便將它保存到一個文件、存儲到數據庫或者通過網絡傳輸它。
解決方案
對于序列化最普遍的做法就是使用 pickle
模塊。為了將一個對象保存到一個文件中,可以這樣做:
1
2
3
4
5
|
import pickle data = ... # Some Python object f = open ( 'somefile' , 'wb' ) pickle.dump(data, f) |
為了將一個對象轉儲為一個字符串,可以使用 pickle.dumps()
:
1
|
s = pickle.dumps(data) |
為了從字節流中恢復一個對象,使用 pickle.load()
或 pickle.loads()
函數。比如:
1
2
3
4
5
6
|
# Restore from a file f = open ( 'somefile' , 'rb' ) data = pickle.load(f) # Restore from a string data = pickle.loads(s) |
討論
對于大多數應用程序來講,dump()
和 load()
函數的使用就是你有效使用 pickle
模塊所需的全部了。 它可適用于絕大部分Python數據類型和用戶自定義類的對象實例。 如果你碰到某個庫可以讓你在數據庫中保存/恢復Python對象或者是通過網絡傳輸對象的話, 那么很有可能這個庫的底層就使用了 pickle
模塊。
pickle
是一種Python特有的自描述的數據編碼。 通過自描述,被序列化后的數據包含每個對象開始和結束以及它的類型信息。 因此,你無需擔心對象記錄的定義,它總是能工作。 舉個例子,如果要處理多個對象,你可以這樣做:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
>>> import pickle >>> f = open ( 'somedata' , 'wb' ) >>> pickle.dump([ 1 , 2 , 3 , 4 ], f) >>> pickle.dump( 'hello' , f) >>> pickle.dump({ 'Apple' , 'Pear' , 'Banana' }, f) >>> f.close() >>> f = open ( 'somedata' , 'rb' ) >>> pickle.load(f) [ 1 , 2 , 3 , 4 ] >>> pickle.load(f) 'hello' >>> pickle.load(f) { 'Apple' , 'Pear' , 'Banana' } >>> |
你還能序列化函數,類,還有接口,但是結果數據僅僅將它們的名稱編碼成對應的代碼對象。例如:
1
2
3
4
5
|
>>> import math >>> import pickle. >>> pickle.dumps(math.cos) b '\x80\x03cmath\ncos\nq\x00.' >>> |
當數據反序列化回來的時候,會先假定所有的源數據時可用的。 模塊、類和函數會自動按需導入進來。對于Python數據被不同機器上的解析器所共享的應用程序而言, 數據的保存可能會有問題,因為所有的機器都必須訪問同一個源代碼。
注
千萬不要對不信任的數據使用pickle.load()。
pickle在加載時有一個副作用就是它會自動加載相應模塊并構造實例對象。
但是某個壞人如果知道pickle的工作原理,
他就可以創建一個惡意的數據導致Python執行隨意指定的系統命令。
因此,一定要保證pickle只在相互之間可以認證對方的解析器的內部使用。
有些類型的對象是不能被序列化的。這些通常是那些依賴外部系統狀態的對象, 比如打開的文件,網絡連接,線程,進程,棧幀等等。 用戶自定義類可以通過提供 __getstate__()
和 __setstate__()
方法來繞過這些限制。 如果定義了這兩個方法,pickle.dump()
就會調用 __getstate__()
獲取序列化的對象。 類似的,__setstate__()
在反序列化時被調用。為了演示這個工作原理, 下面是一個在內部定義了一個線程但仍然可以序列化和反序列化的類:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
# countdown.py import time import threading class Countdown: def __init__( self , n): self .n = n self .thr = threading.Thread(target = self .run) self .thr.daemon = True self .thr.start() def run( self ): while self .n > 0 : print ( 'T-minus' , self .n) self .n - = 1 time.sleep( 5 ) def __getstate__( self ): return self .n def __setstate__( self , n): self .__init__(n) |
試著運行下面的序列化試驗代碼:
1
2
3
4
5
6
7
8
9
10
11
12
|
>>> import countdown >>> c = countdown.Countdown( 30 ) >>> T - minus 30 T - minus 29 T - minus 28 ... >>> # After a few moments >>> f = open ( 'cstate.p' , 'wb' ) >>> import pickle >>> pickle.dump(c, f) >>> f.close() |
然后退出Python解析器并重啟后再試驗下:
1
2
3
4
5
6
|
>>> f = open ( 'cstate.p' , 'rb' ) >>> pickle.load(f) countdown.Countdown object at 0x10069e2d0 > T - minus 19 T - minus 18 ... |
你可以看到線程又奇跡般的重生了,從你第一次序列化它的地方又恢復過來。
pickle
對于大型的數據結構比如使用 array
或 numpy
模塊創建的二進制數組效率并不是一個高效的編碼方式。 如果你需要移動大量的數組數據,你最好是先在一個文件中將其保存為數組數據塊或使用更高級的標準編碼方式如HDF5 (需要第三方庫的支持)。
由于 pickle
是Python特有的并且附著在源碼上,所有如果需要長期存儲數據的時候不應該選用它。 例如,如果源碼變動了,你所有的存儲數據可能會被破壞并且變得不可讀取。 坦白來講,對于在數據庫和存檔文件中存儲數據時,你最好使用更加標準的數據編碼格式如XML,CSV或JSON。 這些編碼格式更標準,可以被不同的語言支持,并且也能很好的適應源碼變更。
最后一點要注意的是 pickle
有大量的配置選項和一些棘手的問題。 對于最常見的使用場景,你不需要去擔心這個,但是如果你要在一個重要的程序中使用pickle去做序列化的話, 最好去查閱一下 官方文檔 。
以上就是序列化Python對象的方法的詳細內容,更多關于序列化Python對象的資料請關注服務器之家其它相關文章!
原文鏈接:https://python3-cookbook.readthedocs.io/zh_CN/latest/c05/p21_serializing_python_objects.html