SMTP用于發(fā)送郵件,如果要收取郵件呢?
收取郵件就是編寫一個(gè)MUA作為客戶端,從MDA把郵件獲取到用戶的電腦或者手機(jī)上。收取郵件最常用的協(xié)議是POP協(xié)議,目前版本號(hào)是3,俗稱POP3。
Python內(nèi)置一個(gè)poplib模塊,實(shí)現(xiàn)了POP3協(xié)議,可以直接用來(lái)收郵件。
注意到POP3協(xié)議收取的不是一個(gè)已經(jīng)可以閱讀的郵件本身,而是郵件的原始文本,這和SMTP協(xié)議很像,SMTP發(fā)送的也是經(jīng)過(guò)編碼后的一大段文本。
要把POP3收取的文本變成可以閱讀的郵件,還需要用email模塊提供的各種類來(lái)解析原始文本,變成可閱讀的郵件對(duì)象。
所以,收取郵件分兩步:
第一步:用poplib把郵件的原始文本下載到本地;
第二部:用email解析原始文本,還原為郵件對(duì)象。
通過(guò)POP3下載郵件
POP3協(xié)議本身很簡(jiǎn)單,以下面的代碼為例,我們來(lái)獲取最新的一封郵件內(nèi)容:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
import poplib # 輸入郵件地址, 口令和POP3服務(wù)器地址: email = raw_input ( 'Email: ' ) password = raw_input ( 'Password: ' ) pop3_server = raw_input ( 'POP3 server: ' ) # 連接到POP3服務(wù)器: server = poplib.POP3(pop3_server) # 可以打開或關(guān)閉調(diào)試信息: # server.set_debuglevel(1) # 可選:打印POP3服務(wù)器的歡迎文字: print (server.getwelcome()) # 身份認(rèn)證: server.user(email) server.pass_(password) # stat()返回郵件數(shù)量和占用空間: print ( 'Messages: %s. Size: %s' % server.stat()) # list()返回所有郵件的編號(hào): resp, mails, octets = server. list () # 可以查看返回的列表類似['1 82923', '2 2184', ...] print (mails) # 獲取最新一封郵件, 注意索引號(hào)從1開始: index = len (mails) resp, lines, octets = server.retr(index) # lines存儲(chǔ)了郵件的原始文本的每一行, # 可以獲得整個(gè)郵件的原始文本: msg_content = '\r\n' .join(lines) # 稍后解析出郵件: msg = Parser().parsestr(msg_content) # 可以根據(jù)郵件索引號(hào)直接從服務(wù)器刪除郵件: # server.dele(index) # 關(guān)閉連接: server.quit() |
用POP3獲取郵件其實(shí)很簡(jiǎn)單,要獲取所有郵件,只需要循環(huán)使用retr()把每一封郵件內(nèi)容拿到即可。真正麻煩的是把郵件的原始內(nèi)容解析為可以閱讀的郵件對(duì)象。
解析郵件
解析郵件的過(guò)程和上一節(jié)構(gòu)造郵件正好相反,因此,先導(dǎo)入必要的模塊:
1
2
3
4
|
import email from email.parser import Parser from email.header import decode_header from email.utils import parseaddr |
只需要一行代碼就可以把郵件內(nèi)容解析為Message對(duì)象:
1
|
msg = Parser().parsestr(msg_content) |
但是這個(gè)Message對(duì)象本身可能是一個(gè)MIMEMultipart對(duì)象,即包含嵌套的其他MIMEBase對(duì)象,嵌套可能還不止一層。
所以我們要遞歸地打印出Message對(duì)象的層次結(jié)構(gòu):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
|
# indent用于縮進(jìn)顯示: def print_info(msg, indent = 0 ): if indent = = 0 : # 郵件的From, To, Subject存在于根對(duì)象上: for header in [ 'From' , 'To' , 'Subject' ]: value = msg.get(header, '') if value: if header = = 'Subject' : # 需要解碼Subject字符串: value = decode_str(value) else : # 需要解碼Email地址: hdr, addr = parseaddr(value) name = decode_str(hdr) value = u '%s <%s>' % (name, addr) print ( '%s%s: %s' % ( ' ' * indent, header, value)) if (msg.is_multipart()): # 如果郵件對(duì)象是一個(gè)MIMEMultipart, # get_payload()返回list,包含所有的子對(duì)象: parts = msg.get_payload() for n, part in enumerate (parts): print ( '%spart %s' % ( ' ' * indent, n)) print ( '%s--------------------' % ( ' ' * indent)) # 遞歸打印每一個(gè)子對(duì)象: print_info(part, indent + 1 ) else : # 郵件對(duì)象不是一個(gè)MIMEMultipart, # 就根據(jù)content_type判斷: content_type = msg.get_content_type() if content_type = = 'text/plain' or content_type = = 'text/html' : # 純文本或HTML內(nèi)容: content = msg.get_payload(decode = True ) # 要檢測(cè)文本編碼: charset = guess_charset(msg) if charset: content = content.decode(charset) print ( '%sText: %s' % ( ' ' * indent, content + '...' )) else : # 不是文本,作為附件處理: print ( '%sAttachment: %s' % ( ' ' * indent, content_type)) |
郵件的Subject或者Email中包含的名字都是經(jīng)過(guò)編碼后的str,要正常顯示,就必須decode:
1
2
3
4
5
|
def decode_str(s): value, charset = decode_header(s)[ 0 ] if charset: value = value.decode(charset) return value |
decode_header()返回一個(gè)list,因?yàn)橄馛c、Bcc這樣的字段可能包含多個(gè)郵件地址,所以解析出來(lái)的會(huì)有多個(gè)元素。上面的代碼我們偷了個(gè)懶,只取了第一個(gè)元素。
文本郵件的內(nèi)容也是str,還需要檢測(cè)編碼,否則,非UTF-8編碼的郵件都無(wú)法正常顯示:
1
2
3
4
5
6
7
8
9
10
|
def guess_charset(msg): # 先從msg對(duì)象獲取編碼: charset = msg.get_charset() if charset is None : # 如果獲取不到,再?gòu)腃ontent-Type字段獲取: content_type = msg.get( 'Content-Type' , '').lower() pos = content_type.find( 'charset=' ) if pos > = 0 : charset = content_type[pos + 8 :].strip() return charset |
把上面的代碼整理好,我們就可以來(lái)試試收取一封郵件。先往自己的郵箱發(fā)一封郵件,然后用瀏覽器登錄郵箱,看看郵件收到?jīng)],如果收到了,我們就來(lái)用Python程序把它收到本地:
運(yùn)行程序,結(jié)果如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
+ OK Welcome to coremail Mail Pop3 Server ( 163coms [...]) Messages: 126. Size: 27228317 From: Test <[email protected]> To: Python愛(ài)好者 <xxxxxx@ 163.com > Subject: 用POP3收取郵件 part 0 - - - - - - - - - - - - - - - - - - - - part 0 - - - - - - - - - - - - - - - - - - - - Text: Python可以使用POP3收取郵件……... part 1 - - - - - - - - - - - - - - - - - - - - Text: Python可以<a href = "..." >使用POP3< / a>收取郵件……... part 1 - - - - - - - - - - - - - - - - - - - - Attachment: application / octet - stream |
我們從打印的結(jié)構(gòu)可以看出,這封郵件是一個(gè)MIMEMultipart,它包含兩部分:第一部分又是一個(gè)MIMEMultipart,第二部分是一個(gè)附件。而內(nèi)嵌的MIMEMultipart是一個(gè)alternative類型,它包含一個(gè)純文本格式的MIMEText和一個(gè)HTML格式的MIMEText。
小結(jié)
用Python的poplib模塊收取郵件分兩步:第一步是用POP3協(xié)議把郵件獲取到本地,第二步是用email模塊把原始郵件解析為Message對(duì)象,然后,用適當(dāng)?shù)男问桨燕]件內(nèi)容展示給用戶即可。