我們以內(nèi)容頁網(wǎng)址http://kimi201406.1688.com/page/creditdetail.htm為例,來獲取它的公司介紹和聯(lián)系方式頁面的聯(lián)系方式信息。
公司介紹在網(wǎng)址http://kimi201406.1688.com/page/creditdetail.htm里獲取,而聯(lián)系方式信息在網(wǎng)址http://kimi201406.1688.com/page/contactinfo.htm里獲取。所以我們需要借助多頁功能來實現(xiàn)。前者叫默認(rèn)頁地址,后者叫做多頁地址。
流程:點擊①創(chuàng)建多頁,進行②多頁設(shè)置,然后在數(shù)據(jù)來源③選擇多頁調(diào)用,最后根據(jù)多頁源代碼設(shè)置提取方式。
下面重點講解②,多頁地址的兩種獲取方式:頁面地址替換和源碼中截取。
1.頁面地址替換:也就是默認(rèn)頁和多頁地址有相同的地方,通過簡單的替換就可以變成多頁地址。
比較默認(rèn)頁“http://kimi201406.1688.com/page/creditdetail.htm”和多頁地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之間的共同點,可以發(fā)現(xiàn)默認(rèn)頁“creditdetail.htm”替換為“contactinfo.htm”就是我們的多頁地址了。
設(shè)置如下圖:
注:正則表達(dá)式中 (.*) 為任意通配符。$1,$2…$數(shù)字來按照順序?qū)?yīng)上面(.*)表示的部分。若要對多頁源碼部分區(qū)域做限定,可在指定多頁源碼區(qū)域設(shè)置。
若留空則默認(rèn)返回多頁整個源代碼。設(shè)置好以后,點擊測試查看結(jié)果即可。
2.源碼中截取:也就是多頁的地址在默認(rèn)頁的頁面源代碼里面。
如圖,可以看到默認(rèn)頁源碼中存在多頁地址。
所以設(shè)置如下:
測試后如正確則保存即可。最后設(shè)置數(shù)據(jù)來源和提取方式,如圖:
注:如需要多級多頁,則在多頁地址獲取方式選擇需要的多頁即可
這兩種獲取方式大家掌握了嗎,今后在抓取網(wǎng)站時使用火車采集器V9的上述操作就可以很容易地獲取到關(guān)聯(lián)的多頁地址了,作為一款功能全面的網(wǎng)站抓取精靈,火車采集器一定會充分考慮到用戶的使用需求,以及如何最大化實現(xiàn)便利