非貪婪匹配 (.*?)
1
2
3
4
|
import re a = '456qwe789rty123abc' re = re.findall( '456(.*?)789' ,a) print (re) |
通常情況,滿足匹配規則“456(.*?)789”的內容通常不止一個,那么findall()函數會從字符串的起始位置開始尋找文本a,找到后開始尋找文本b,當找到第一個文本b后,暫時停止尋找,將文本a和文本b之間的內容存入列表;然后繼續尋找文本a,并重復之前的步驟,直到到達字符串的結束位置,并將所有匹配到的內容存入列表。
1
2
3
4
|
import re a = '456qwe789rty123456kkk789abc456xiaowang789' re = re.findall( '456(.*?)789' ,a) print (re) |
貪婪模式的話就會尋找最長的
1
2
3
4
|
import re a = '456qwe789rty123456kkk789abc456xiaowang789' re = re.findall( '456(.*)789' ,a) print (re) |
非貪婪匹配 .*?
1
2
3
4
|
import re a = '<a href="https://blog.csdn.net/weixin_42403632/article/details/120825546" rel="external nofollow" target="_blank" data-report-click="{"spm":"3001.5501"}" data-report-query="spm=3001.5501" data-v-6fe2b6a7="">' re = re.findall( '<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?' ,a) print (re) |
" 和 url后面的html代碼
用.*?
代表,需要提取的是<a href="
后的內容,用“(.*?)”代表
實戰爬取博客專欄url
1
2
3
4
5
6
7
8
|
import re,requests url = 'https://blog.csdn.net/weixin_42403632/category_11076268.html' headers = { 'user-agent' : 'mozilla/5.0 (windows nt 10.0; win64; x64; rv:93.0) gecko/20100101 firefox/93.0' } html = requests.get(url,headers = headers).text re = re.findall( '<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?rel="noopener">' ,html) for i in re: print (i) |
到此這篇關于輕松入門正則表達式之非貪婪匹配篇詳解的文章就介紹到這了,更多相關正則表達式 非貪婪匹配內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!
原文鏈接:https://blog.csdn.net/weixin_42403632/article/details/120827713