在程序運行的過程中,所有的變量都是在內存中,比如,定義一個dict:
d = dict(name='Bob', age=20, score=88)
可以隨時修改變量,比如把name改成'Bill',但是一旦程序結束,變量所占用的內存就被操作系統全部回收。如果沒有把修改后的'Bill'存儲到磁盤上,下次重新運行程序,變量又被初始化為'Bob'。
我們把變量從內存中變成可存儲或傳輸的過程稱之為序列化,在Python中叫pickling,在其他語言中也被稱之為serialization,marshalling,flattening等等,都是一個意思。
序列化之后,就可以把序列化后的內容寫入磁盤,或者通過網絡傳輸到別的機器上。
反過來,把變量內容從序列化的對象重新讀到內存里稱之為反序列化,即unpickling。
Python提供兩個模塊來實現序列化:cPickle和pickle。這兩個模塊功能是一樣的,區別在于cPickle是C語言寫的,速度快,pickle是純Python寫的,速度慢,跟cStringIO和StringIO一個道理。用的時候,先嘗試導入cPickle,如果失敗,再導入pickle:
try: import cPickle as pickleexcept ImportError: import pickle
首先,我們嘗試把一個對象序列化并寫入文件:
>>> d = dict(name='Bob', age=20, score=88)>>> pickle.dumps(d)"(dp0/nS'age'/np1/nI20/nsS'score'/np2/nI88/nsS'name'/np3/nS'Bob'/np4/ns."
pickle.dumps()方法把任意對象序列化成一個str,然后,就可以把這個str寫入文件。或者用另一個方法pickle.dump()直接把對象序列化后寫入一個file-like Object:
>>> f = open('dump.txt', 'wb')>>> pickle.dump(d, f)>>> f.close()看看寫入的dump.txt文件,一堆亂七八糟的內容,這些都是Python保存的對象內部信息。
當我們要把對象從磁盤讀到內存時,可以先把內容讀到一個str,然后用pickle.loads()方法反序列化出對象,也可以直接用pickle.load()方法從一個file-like Object中直接反序列化出對象。我們打開另一個Python命令行來反序列化剛才保存的對象:
>>> f = open('dump.txt', 'rb')>>> d = pickle.load(f)>>> f.close()>>> d{'age': 20, 'score': 88, 'name': 'Bob'}變量的內容又回來了!
當然,這個變量和原來的變量是完全不相干的對象,它們只是內容相同而已。
Pickle的問題和所有其他編程語言特有的序列化問題一樣,就是它只能用于Python,并且可能不同版本的Python彼此都不兼容,因此,只能用Pickle保存那些不重要的數據,不能成功地反序列化也沒關系。
新聞熱點
疑難解答
圖片精選