一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python抓取最新博客內容并生成Rss

python抓取最新博客內容并生成Rss

2020-06-30 09:41腳本之家 Python

本文給大家分享的是使用python抓取最新博客內容并生成Rss的代碼,主要用到了PyRSS2Gen方法,非常的簡單實用,有需要的小伙伴可以參考下。

osc的rss不是全文輸出的,不開心,所以就有了python抓取osc最新博客生成Rss

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
# -*- coding: utf-8 -*-
 
 
from bs4 import BeautifulSoup
import urllib2
 
import datetime
import time
import PyRSS2Gen
from email.Utils import formatdate
import re
import sys
import os
reload(sys)
sys.setdefaultencoding('utf-8')
 
class RssSpider():
 def __init__(self):
 self.myrss = PyRSS2Gen.RSS2(title='OSChina',
description=str(datetime.date.today()),
pubDate=datetime.datetime.now(),
 lastBuildDate = datetime.datetime.now(),
items=[]
)
self.xmlpath=r'/var/www/myrss/oschina.xml'
 
 #if os.path.isfile(self.xmlpath):
#os.remove(self.xmlpath)
 def useragent(self,url):
 i_headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64)
 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36",
"Referer": 'http://baidu.com/'}
 req = urllib2.Request(url, headers=i_headers)
 html = urllib2.urlopen(req).read()
 return html
 def enterpage(self,url):
 pattern = re.compile(r'd{4}Sd{2}Sd{2}sd{2}Sd{2}')
rsp=self.useragent(url)
soup=BeautifulSoup(rsp)
timespan=soup.find('div',{'class':'BlogStat'})
timespan=str(timespan).strip().replace('n','').decode('utf-8')
match=re.search(r'd{4}Sd{2}Sd{2}sd{2}Sd{2}',timespan)
timestr=str(datetime.date.today())
 if match:
timestr=match.group()
 #print timestr
ititle=soup.title.string
div=soup.find('div',{'class':'BlogContent'})
rss=PyRSS2Gen.RSSItem(
title=ititle,
link=url,
 description = str(div),
 pubDate = timestr
)
 
 return rss
 def getcontent(self):
rsp=self.useragent(self.baseurl)
soup=BeautifulSoup(rsp)
ul=soup.find('div',{'id':'RecentBlogs'})
 for li in ul.findAll('li'):
div=li.find('div')
 if div is not None:
alink=div.find('a')
 if alink is not None:
link=alink.get('href')
 print link
html=self.enterpage(link)
self.myrss.items.append(html)
 def SaveRssFile(self,filename):
finallxml=self.myrss.to_xml(encoding='utf-8')
file=open(self.xmlpath,'w')
file.writelines(finallxml)
file.close()
 
 
 
if __name__=='__main__':
rssSpider=RssSpider()
rssSpider.getcontent()
rssSpider.SaveRssFile('oschina.xml')

以上所述就是本文的全部內容了,希望大家能夠喜歡。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产在线精品成人一区二区三区 | 摸咪网在线影院在线观看 | 人妖女天堂视频在线96 | 九九热在线免费观看 | 国产亚洲毛片在线 | 扒开老师挠尿口到崩溃刑罚 | 国产精品视频一区二区三区 | 操久久| 99热这里只有精品免费 | 亚洲欧美一区二区三区在线观看 | 嫩草影院地址一地址二 | 欧美黑人成人免费全部 | 美女扒开两腿露出尿口的视频 | 国产精品林美惠子在线观看 | 国产品精人成福利视频 | bestialitysex杂交 bedfriend泰剧全集免费观看 | 小寡妇好紧进去了好大看视频 | 好舒服好爽再快点视频 | 青青青国产视频 | 欧美性欲 | 日韩欧美精品 | 四虎成人永久地址 | 4虎影院在线观看 | 久久中文字幕乱码免费 | 免费看片黄色 | 青草午夜精品视频在线观看 | 亚洲一区二区三区91 | 无码精品AV久久久奶水 | 成年美女黄网站色视频大全免费 | 我和子伦系列小说 | 超级乱淫 不详 | 精品一区二区三区免费站 | 亚洲国产在线 | 91制片在线观看 | 夫妻性生活一级黄色片 | 亚洲国产一区二区三区a毛片 | 禁欲天堂 | 15同性同志18 | 国产久热精品 | 国产日韩欧美在线观看不卡 | 亚洲AV人无码综合在线观看蜜桃 |