今天分享的這篇文章,文字不多,代碼為主。絕對干貨,童叟無欺,主要分享了提升 Python 性能的 20 個技巧,教你如何告別慢Python。原文作者 開元,全棧程序員,使用 Python, Java, PHP和C++。
1. 優(yōu)化算法時間復(fù)雜度
算法的時間復(fù)雜度對程序的執(zhí)行效率影響最大,在Python中可以通過選擇合適的數(shù)據(jù)結(jié)構(gòu)來優(yōu)化時間復(fù)雜度,如list和set查找某一個元素的時間復(fù)雜度分別是O(n)和O(1)。不同的場景有不同的優(yōu)化方式,總得來說,一般有分治,分支界限,貪心,動態(tài)規(guī)劃等思想。
2. 減少冗余數(shù)據(jù)
如用上三角或下三角的方式去保存一個大的對稱矩陣。在0元素占大多數(shù)的矩陣?yán)锸褂孟∈杈仃嚤硎尽?/p>
3. 合理使用copy與deepcopy
對于dict和list等數(shù)據(jù)結(jié)構(gòu)的對象,直接賦值使用的是引用的方式。而有些情況下需要復(fù)制整個對象,這時可以使用copy包里的copy和deepcopy,這兩個函數(shù)的不同之處在于后者是遞歸復(fù)制的。效率也不一樣:(以下程序在ipython中運行)
1
2
3
4
5
6
7
|
import copy a = range ( 100000 ) % timeit - n 10 copy.copy(a) # 運行10次 copy.copy(a) % timeit - n 10 copy.deepcopy(a) 10 loops, best of 3 : 1.55 ms per loop 10 loops, best of 3 : 151 ms per loop |
timeit后面的-n表示運行的次數(shù),后兩行對應(yīng)的是兩個timeit的輸出,下同。由此可見后者慢一個數(shù)量級。
4. 使用dict或set查找元素
Python dict和set都是使用hash表來實現(xiàn)(類似c++11標(biāo)準(zhǔn)庫中unordered_map),查找元素的時間復(fù)雜度是O(1)。
1
2
3
4
5
6
7
|
a = range ( 1000 ) s = set (a) d = dict ((i, 1 ) for i in a) % timeit - n 10000 100 in d % timeit - n 10000 100 in s 10000 loops, best of 3 : 43.5 ns per loop 10000 loops, best of 3 : 49.6 ns per loop |
dict的效率略高(占用的空間也多一些)。
5. 合理使用生成器(generator)和yield
1
2
3
4
|
% timeit - n 100 a = (i for i in range ( 100000 )) % timeit - n 100 b = [i for i in range ( 100000 )] 100 loops, best of 3 : 1.54 ms per loop 100 loops, best of 3 : 4.56 ms per loop |
使用()得到的是一個generator對象,所需要的內(nèi)存空間與列表的大小無關(guān),所以效率會高一些。在具體應(yīng)用上,比如set(i for i in range(100000))會比set([i for i in range(100000)])快。
但是對于需要循環(huán)遍歷的情況:
1
2
3
4
5
|
% timeit - n 10 for x in (i for i in range ( 100000 )): pass % timeit - n 10 for x in [i for i in range ( 100000 )]: pass 10 loops, best of 3 : 6.51 ms per loop 10 loops, best of 3 : 5.54 ms per loop |
后者的效率反而更高,但是如果循環(huán)里有break,用generator的好處是顯而易見的。yield也是用于創(chuàng)建generator:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
def yield_func(ls): for i in ls: yield i + 1 def not_yield_func(ls): return [i + 1 for i in ls] ls = range ( 1000000 ) % timeit - n 10 for i in yield_func(ls): pass % timeit - n 10 for i in not_yield_func(ls): pass 10 loops, best of 3 : 63.8 ms per loop 10 loops, best of 3 : 62.9 ms per loop |
對于內(nèi)存不是非常大的list,可以直接返回一個list,但是可讀性yield更佳(人個喜好)。
python2.x內(nèi)置generator功能的有xrange函數(shù)、itertools包等。
6. 優(yōu)化循環(huán)
循環(huán)之外能做的事不要放在循環(huán)內(nèi),比如下面的優(yōu)化可以快一倍:
1
2
3
4
5
6
|
a = range ( 10000 ) size_a = len (a) % timeit - n 1000 for i in a: k = len (a) % timeit - n 1000 for i in a: k = size_a 1000 loops, best of 3 : 569 µs per loop 1000 loops, best of 3 : 256 µs per loop |
7. 優(yōu)化包含多個判斷表達(dá)式的順序
對于and,應(yīng)該把滿足條件少的放在前面,對于or,把滿足條件多的放在前面。如:
1
2
3
4
5
6
7
8
9
|
a = range ( 2000 ) % timeit - n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000 ] % timeit - n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20 ] % timeit - n 100 [i for i in a if i % 2 = = 0 and i > 1900 ] % timeit - n 100 [i for i in a if i > 1900 and i % 2 = = 0 ] 100 loops, best of 3 : 287 µs per loop 100 loops, best of 3 : 214 µs per loop 100 loops, best of 3 : 128 µs per loop 100 loops, best of 3 : 56.1 µs per loop |
8. 使用join合并迭代器中的字符串
1
2
3
4
5
6
7
8
9
10
11
|
In [ 1 ]: % % timeit ...: s = '' ...: for i in a: ...: s + = i ...: 10000 loops, best of 3 : 59.8 µs per loop In [ 2 ]: % % timeit s = ''.join(a) ...: 100000 loops, best of 3 : 11.8 µs per loop |
join對于累加的方式,有大約5倍的提升。
9. 選擇合適的格式化字符方式
1
2
3
4
5
6
7
8
|
s1, s2 = 'ax' , 'bx' % timeit - n 100000 'abc%s%s' % (s1, s2) % timeit - n 100000 'abc{0}{1}' . format (s1, s2) % timeit - n 100000 'abc' + s1 + s2 100000 loops, best of 3 : 183 ns per loop 100000 loops, best of 3 : 169 ns per loop 100000 loops, best of 3 : 103 ns per loop |
三種情況中,%的方式是最慢的,但是三者的差距并不大(都非常快)。(個人覺得%的可讀性最好)
10. 不借助中間變量交換兩個變量的值
1
2
3
4
5
6
7
8
9
10
11
|
In [ 3 ]: % % timeit - n 10000 a,b = 1 , 2 ....: c = a;a = b;b = c; ....: 10000 loops, best of 3 : 172 ns per loop In [ 4 ]: % % timeit - n 10000 a,b = 1 , 2a ,b = b,a ....: 10000 loops, best of 3 : 86 ns per loop |
使用a,b=b,a而不是c=a;a=b;b=c;來交換a,b的值,可以快1倍以上。
11. 使用if is
1
2
3
4
5
|
a = range ( 10000 ) % timeit - n 100 [i for i in a if i = = True ] % timeit - n 100 [i for i in a if i is True ] 100 loops, best of 3 : 531 µs per loop 100 loops, best of 3 : 362 µs per loop |
使用 if is True 比 if == True 將近快一倍。
12. 使用級聯(lián)比較x < y < z
1
2
3
4
5
6
7
|
x, y, z = 1 , 2 , 3 % timeit - n 1000000 if x < y < z: pass % timeit - n 1000000 if x < y and y < z: pass 1000000 loops, best of 3 : 101 ns per loop 1000000 loops, best of 3 : 121 ns per loop |
x < y < z效率略高,而且可讀性更好。
13. while 1 比 while True 更快
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
def while_1(): n = 100000 while 1 : n - = 1 if n < = 0 : break def while_true(): n = 100000 while True : n - = 1 if n < = 0 : break m, n = 1000000 , 1000000 % timeit - n 100 while_1() % timeit - n 100 while_true() 100 loops, best of 3 : 3.69 ms per loop 100 loops, best of 3 : 5.61 ms per loop |
while 1 比 while true快很多,原因是在python2.x中,True是一個全局變量,而非關(guān)鍵字。
14. 使用**而不是pow
1
2
3
4
5
|
% timeit - n 10000 c = pow ( 2 , 20 ) % timeit - n 10000 c = 2 * * 20 10000 loops, best of 3 : 284 ns per loop 10000 loops, best of 3 : 16.9 ns per loop |
**就是快10倍以上!
15. 使用 cProfile, cStringIO 和 cPickle等用c實現(xiàn)相同功能(分別對應(yīng)profile, StringIO, pickle)的包
1
2
3
4
5
6
7
|
import cPickle import pickle a = range ( 10000 ) % timeit - n 100 x = cPickle.dumps(a) % timeit - n 100 x = pickle.dumps(a) 100 loops, best of 3 : 1.58 ms per loop 100 loops, best of 3 : 17 ms per loop |
由c實現(xiàn)的包,速度快10倍以上!
16. 使用最佳的反序列化方式
下面比較了eval, cPickle, json方式三種對相應(yīng)字符串反序列化的效率:
1
2
3
4
5
6
7
8
9
10
11
12
|
import json import cPickle a = range ( 10000 ) s1 = str (a) s2 = cPickle.dumps(a) s3 = json.dumps(a) % timeit - n 100 x = eval (s1) % timeit - n 100 x = cPickle.loads(s2) % timeit - n 100 x = json.loads(s3) 100 loops, best of 3 : 16.8 ms per loop 100 loops, best of 3 : 2.02 ms per loop 100 loops, best of 3 : 798 µs per loop |
可見json比cPickle快近3倍,比eval快20多倍。
17. 使用C擴展(Extension)
目前主要有CPython(python最常見的實現(xiàn)的方式)原生API, ctypes,Cython,cffi三種方式,它們的作用是使得Python程序可以調(diào)用由C編譯成的動態(tài)鏈接庫,其特點分別是:
CPython原生API: 通過引入Python.h頭文件,對應(yīng)的C程序中可以直接使用Python的數(shù)據(jù)結(jié)構(gòu)。實現(xiàn)過程相對繁瑣,但是有比較大的適用范圍。
ctypes: 通常用于封裝(wrap)C程序,讓純Python程序調(diào)用動態(tài)鏈接庫(Windows中的dll或Unix中的so文件)中的函數(shù)。如果想要在python中使用已經(jīng)有C類庫,使用ctypes是很好的選擇,有一些基準(zhǔn)測試下,python2+ctypes是性能最好的方式。
Cython: Cython是CPython的超集,用于簡化編寫C擴展的過程。Cython的優(yōu)點是語法簡潔,可以很好地兼容numpy等包含大量C擴展的庫。Cython的使得場景一般是針對項目中某個算法或過程的優(yōu)化。在某些測試中,可以有幾百倍的性能提升。
cffi: cffi的就是ctypes在pypy(詳見下文)中的實現(xiàn),同進(jìn)也兼容CPython。cffi提供了在python使用C類庫的方式,可以直接在python代碼中編寫C代碼,同時支持鏈接到已有的C類庫。
使用這些優(yōu)化方式一般是針對已有項目性能瓶頸模塊的優(yōu)化,可以在少量改動原有項目的情況下大幅度地提高整個程序的運行效率。
18. 并行編程
因為GIL的存在,Python很難充分利用多核CPU的優(yōu)勢。但是,可以通過內(nèi)置的模塊multiprocessing實現(xiàn)下面幾種并行模式:
多進(jìn)程:對于CPU密集型的程序,可以使用multiprocessing的Process,Pool等封裝好的類,通過多進(jìn)程的方式實現(xiàn)并行計算。但是因為進(jìn)程中的通信成本比較大,對于進(jìn)程之間需要大量數(shù)據(jù)交互的程序效率未必有大的提高。
多線程:對于IO密集型的程序,multiprocessing.dummy模塊使用multiprocessing的接口封裝threading,使得多線程編程也變得非常輕松(比如可以使用Pool的map接口,簡潔高效)。
分布式:multiprocessing中的Managers類提供了可以在不同進(jìn)程之共享數(shù)據(jù)的方式,可以在此基礎(chǔ)上開發(fā)出分布式的程序。
不同的業(yè)務(wù)場景可以選擇其中的一種或幾種的組合實現(xiàn)程序性能的優(yōu)化。
19. 終級大殺器:PyPy
PyPy是用RPython(CPython的子集)實現(xiàn)的Python,根據(jù)官網(wǎng)的基準(zhǔn)測試數(shù)據(jù),它比CPython實現(xiàn)的Python要快6倍以上。快的原因是使用了Just-in-Time(JIT)編譯器,即動態(tài)編譯器,與靜態(tài)編譯器(如gcc,javac等)不同,它是利用程序運行的過程的數(shù)據(jù)進(jìn)行優(yōu)化。由于歷史原因,目前pypy中還保留著GIL,不過正在進(jìn)行的STM項目試圖將PyPy變成沒有GIL的Python。
如果python程序中含有C擴展(非cffi的方式),JIT的優(yōu)化效果會大打折扣,甚至比CPython慢(比Numpy)。所以在PyPy中最好用純Python或使用cffi擴展。
隨著STM,Numpy等項目的完善,相信PyPy將會替代CPython。
20. 使用性能分析工具
除了上面在ipython使用到的timeit模塊,還有cProfile。cProfile的使用方式也非常簡單:python -m cProfile filename.py,filename.py 是要運行程序的文件名,可以在標(biāo)準(zhǔn)輸出中看到每一個函數(shù)被調(diào)用的次數(shù)和運行的時間,從而找到程序的性能瓶頸,然后可以有針對性地優(yōu)化。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持服務(wù)器之家。