久久精品高清,九九视频网,四虎影视永久地址www成人

1、一個網頁通常包含文本信息。對于不同的文本類型，我們可以選擇合適的HTML語義元素進行標記。

2、em元素用于標記和強調部分內容，small元素用于注釋和署名文本。

實例

				?

									<body>

									    <h1>論語學而篇第一</h1>

									    <p><small>

									    <b>作者：</b><abbr title="名丘，字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>（<time>前551年9月28日－前479年4月11日</time>）

									    </small></p>

									    <h2>本篇引語</h2>

									    <p>《學而》是《論語》第一篇的篇名?！墩撜Z》中各篇一般都是以第一章的前二三個字作為該篇的篇名。《學而》一篇包括16章，內容涉及諸多方面。其中重點是

									     <strong>「吾日三省吾身」；「節用而愛人，使民以時」；「禮之用，和為貴」以及仁、孝、信等</strong>道德范疇。</p>

									    <h2>原文</h2>

									    <p>子曰：「<mark>學而時習之，不亦說乎？</mark>有朋自遠方來，不亦樂乎？人不知，而不慍，不亦君子乎？」 </p>

									  </body>

知識點擴展：

Python int與string之間的轉化

string–>int

1、10進制string轉化為int

int(‘12')

2、16進制string轉化為int

int(‘12', 16)

int–>string

1、int轉化為10進制string

str(18)

2、int轉化為16進制string

hex(18)

2 . 由于鏈家網上面選中第二頁的時候，只是在頁面后面多了一個“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所要想爬取更多的網頁只需要循環更新requests 的頁面URL

3 . 增加了一個循環之后，可以打印所有的爬取結果

				?

									from lxml import etree

									import requests

									import string

									url = 'http://sh.lianjia.com/ershoufang/'

									region = 'pudong'

									price = 'p23'

									finalURL = url+region+price

									def spider_room(finallyURL):

									   r= requests.get(finallyURL)

									   html = requests.get(finalURL).content.decode('utf-8')

									   dom_tree = etree.HTML(html)

									   # all the messages

									   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")

									   for index in range(len(all_message)):

									      print(all_message[index].xpath('string(.)').strip())

									   return

									for i in range(20):

									   finallyURL = finalURL + '/d'+str(i)

									   spider_room(finallyURL)