1、一個網頁通常包含文本信息。對于不同的文本類型,我們可以選擇合適的HTML語義元素進行標記。
2、em元素用于標記和強調部分內容,small元素用于注釋和署名文本。
實例
1
2
3
4
5
6
7
8
9
10
11
|
< body > < h1 >論語學而篇第一</ h1 > < p >< small > < b >作者:</ b >< abbr title = "名丘,字仲尼" >孔子< sup >< a href = "#" rel = "external nofollow" >1</ a ></ sup ></ abbr >(< time >前551年9月28日-前479年4月11日</ time >) </ small ></ p > < h2 >本篇引語</ h2 > < p >《學而》是《論語》第一篇的篇名?!墩撜Z》中各篇一般都是以第一章的前二三個字作為該篇的篇名。《學而》一篇包括16章,內容涉及諸多方面。其中重點是 < strong >「吾日三省吾身」;「節用而愛人,使民以時」;「禮之用,和為貴」以及仁、孝、信等</ strong >道德范疇。</ p > < h2 >原文</ h2 > < p >子曰:「< mark >學而時習之,不亦說乎?</ mark >有朋自遠方來,不亦樂乎?人不知,而不慍,不亦君子乎?」 </ p > </ body > |
知識點擴展:
Python int與string之間的轉化
string–>int
1、10進制string轉化為int
int(‘12')
2、16進制string轉化為int
int(‘12', 16)
int–>string
1、int轉化為10進制string
str(18)
2、int轉化為16進制string
hex(18)
2 . 由于鏈家網上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所要想爬取更多的網頁只需要循環更新requests 的頁面URL
3 . 增加了一個循環之后,可以打印所有的爬取結果
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url + region + price def spider_room(finallyURL): r = requests.get(finallyURL) html = requests.get(finalURL).content.decode( 'utf-8' ) dom_tree = etree.HTML(html) # all the messages all_message = dom_tree.xpath( "//ul[@class='js_fang_list']/li" ) for index in range ( len (all_message)): print (all_message[index].xpath( 'string(.)' ).strip()) return for i in range ( 20 ): finallyURL = finalURL + '/d' + str (i) spider_room(finallyURL) |
4 . 爬取了20頁的內容,可是內容的結果輸出的形式并沒有改變
以上就是python對網頁文本的格式化實例方法的詳細內容,更多關于python爬蟲中網頁文本的格式化的資料請關注服務器之家其它相關文章!
原文鏈接:https://www.py.cn/jishu/spider/34207.html