線程池的概念是什么?
在面向?qū)ο缶幊讨校瑒?chuàng)建和銷毀對象是很費時間的,因為創(chuàng)建一個對象要獲取內(nèi)存資源或者其它更多資源。在Java中更是 如此,虛擬機將試圖跟蹤每一個對象,以便能夠在對象銷毀后進行垃圾回收。所以提高服務(wù)程序效率的一個手段就是盡可能減少創(chuàng)建和銷毀對象的次數(shù),特別是一些 很耗資源的對象創(chuàng)建和銷毀。如何利用已有對象來服務(wù)就是一個需要解決的關(guān)鍵問題,其實這就是一些"池化資源"技術(shù)產(chǎn)生的原因。
我理解為線程池是一個存放很多線程的單位,同時還有一個對應(yīng)的任務(wù)隊列。整個執(zhí)行過程其實就是使用線程池中已有有限的線程把任務(wù) 隊列中的任務(wù)做完。這樣做的好處就是你不需要為每個任務(wù)都創(chuàng)建一個線程,因為當(dāng)你創(chuàng)建第100個線程來執(zhí)行第100個任務(wù)的時候,可能前面已經(jīng)有50個線 程結(jié)束工作了。因此重復(fù)利用線程來執(zhí)行任務(wù),減少系統(tǒng)資源的開銷。
一個不怎么恰當(dāng)?shù)谋扔骶褪牵?00臺電腦主機箱需要從1樓搬到2樓,你不需要喊來100人幫忙搬,你只需要叫十個或者二十個人就足以,每個人分配十個或者五個甚至是誰搬的快誰就多搬知道完成未知。(這個比喻好像。。。。。)
不管如何吧,大體上理解了線程池的概念。那么怎么用python實現(xiàn)呢?
代碼如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
|
# !/usr/bin/env python # -*- coding:utf-8 -*- # ref_blog:http://www.open-open.com/home/space-5679-do-blog-id-3247.html import Queue import threading import time class WorkManager( object ): def __init__( self , work_num = 1000 ,thread_num = 2 ): self .work_queue = Queue.Queue() self .threads = [] self .__init_work_queue(work_num) self .__init_thread_pool(thread_num) """ 初始化線程 """ def __init_thread_pool( self ,thread_num): for i in range (thread_num): self .threads.append(Work( self .work_queue)) """ 初始化工作隊列 """ def __init_work_queue( self , jobs_num): for i in range (jobs_num): self .add_job(do_job, i) """ 添加一項工作入隊 """ def add_job( self , func, * args): self .work_queue.put((func, list (args))) #任務(wù)入隊,Queue內(nèi)部實現(xiàn)了同步機制 """ 檢查剩余隊列任務(wù) """ def check_queue( self ): return self .work_queue.qsize() """ 等待所有線程運行完畢 """ def wait_allcomplete( self ): for item in self .threads: if item.isAlive():item.join() class Work(threading.Thread): def __init__( self , work_queue): threading.Thread.__init__( self ) self .work_queue = work_queue self .start() def run( self ): #死循環(huán),從而讓創(chuàng)建的線程在一定條件下關(guān)閉退出 while True : try : do, args = self .work_queue.get(block = False ) #任務(wù)異步出隊,Queue內(nèi)部實現(xiàn)了同步機制 do(args) self .work_queue.task_done() #通知系統(tǒng)任務(wù)完成 except Exception,e: print str (e) break #具體要做的任務(wù) def do_job(args): print args time.sleep( 0.1 ) #模擬處理時間 print threading.current_thread(), list (args) if __name__ = = '__main__' : start = time.time() work_manager = WorkManager( 10 , 2 ) #或者work_manager = WorkManager(10000, 20) work_manager.wait_allcomplete() end = time.time() print "cost all time: %s" % (end - start) |
這個代碼清晰易懂。
整個代碼只有兩個類:WorkManager和Work,前者確實如命名所示,是一個管理者,管理線程池和任務(wù)隊列,而后者就是具體的一個線程。
它的整個運行邏輯就是,給WorkManager分配制定的任務(wù)量和線程數(shù),然后每個線程都從任務(wù)隊列中獲取任務(wù)來執(zhí)行,直到隊列中沒有任務(wù)。這里面也用到了Queue內(nèi)部的同步機制(至于是啥同步機制目前還沒去研究)。
總結(jié)一下這樣一個線程池的作用,對于我本來的目的其實這個東西是永不上的,因為我需要在web頁面來控制線程的啟動和停止,而這個線程池看起來只是用來并發(fā)完任務(wù)的。不過我想雖然在控制線程方面沒有作用,但是它的并發(fā)執(zhí)行任務(wù)的作用還是蠻不錯,或許可以用在爬網(wǎng)頁的部分。