一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - java正則表達式匹配網頁所有網址和鏈接文字的示例

java正則表達式匹配網頁所有網址和鏈接文字的示例

2019-11-15 14:39java教程網 JAVA教程

這篇文章主要介紹了java正則表達式匹配網頁所有網址和鏈接文字java正則表達式匹配,需要的朋友可以參考下

代碼如下:


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

 

import java.net.*;
import java.io.*;
import java.util.regex.*;

/*
根據指定的規則,通過構造正則表達式獲取網址
*/

public class Urls
{
    private String startUrl;                                         //開始采集網址
    String  urlContent;
    String ContentArea;
    private String strAreaBegin ,strAreaEnd ;            //采集區域開始采集字符串和結束采集字符串
    private String stringInUrl,stringNotInUrl;        
    String strContent;//獲得的采集內容
    String[] allUrls;                                                            //采集到的所有網址
    private String  regex;                                                 //采集規則

    UrlAndTitle   urlAndTitle=new UrlAndTitle();    //存儲網址和標題                    

    
    public static void main(String[] args)
    {
         Urls myurl=new Urls("<body","/body>");
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getUrlContent();
         myurl.getContentArea();
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getStringNotInUrl("google");
         myurl.Urls();

        //System.out.println("startUrl:"+myurl.startUrl);
        //System.out.println("urlcontent:"+myurl.urlContent);
        //System.out.println("ContentArea:"+myurl.ContentArea);

    }

    
    //初始化構造函數 strAreaBegin 和strAreaEnd

    public Urls (String strAreaBegin,String strAreaEnd)
    {
        this.strAreaBegin=strAreaBegin;
        this.strAreaEnd=strAreaEnd;
  }

  //
    public void Urls()
    {
        int i=0;
        //String regex ="<a href="?'?http://[a-zA-Z0-9]+/.[a-zA-Z0-9]+/.[a-zA-Z]+/?[/.?[/S|/s]]+[a>]$";
        String regex ="<a.*?/a>";
         //String regex ="http://.*?>";
        Pattern pt=Pattern.compile(regex);
        Matcher mt=pt.matcher(ContentArea);
        while(mt.find())
         {
                 System.out.println(mt.group());
                 i++;

                 //獲取標題
                 Matcher title=Pattern.compile(">.*?</a>").matcher(mt.group()); 
                 while(title.find())
                 {
                      System.out.println("標題:"+title.group().replaceAll(">|</a>",""));
                 }

                 //獲取網址
                 Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group()); 
                 while(myurl.find())
                 {
                      System.out.println("網址:"+myurl.group().replaceAll("href=|>",""));
                 }

                 System.out.println();

                 
         }

        System.out.println("共有"+i+"個符合結果");

    }    

    //獲得開始采集網址
    public void getStartUrl(String startUrl)
    {
        this.startUrl=startUrl;
    }

    //獲得網址所在內容;
    public void getUrlContent()
    {

        StringBuffer is=new StringBuffer();
        try
        {
            URL myUrl=new URL(startUrl);
            BufferedReader br= new BufferedReader(
                                                        new InputStreamReader(myUrl.openStream()));

            String s;                                                
            while((s=br.readLine())!=null)
            {
                is.append(s);
            }                                            
            urlContent=is.toString();
        }
    catch(Exception e)

    { 
        System.out.println("網址文件未能輸出");
        e.printStackTrace();
    }

        
    }

    
    //獲得網址所在的匹配區域部分
    public void getContentArea()
    {
         int pos1=0,pos2=0;
         pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
         pos2=urlContent.indexOf(strAreaEnd,pos1);
         ContentArea=urlContent.substring(pos1,pos2); 
    }

    //以下兩個函數獲得網址應該要包含的關鍵字及不能包含的關鍵字
    //這里只做初步的實驗。后期,保護的關鍵字及不能包含的關鍵字應該是不只一個的。
    public void getStringInUrl(String stringInUrl)
    {
         this.stringInUrl=stringInUrl;        

    }

    public void getStringNotInUrl(String stringNotInUrl)
    {
        this.stringNotInUrl=stringNotInUrl;
    }

    //獲取采集規則

    //獲取url網址
    public void getUrl()
    {

    }

    public String getRegex()
    {
        return regex;

    }

    class UrlAndTitle
    {
        String myURL;
        String title;
    }
}

 

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产激情视频网站 | 亚洲乱亚洲乱妇41p国产成人 | 色呦呦网| 日本高清动作片www欧美 | 十八女下面流水不遮免费 | 精品网站| 久久婷婷丁香五月色综合啪免费 | 亚洲男人天堂网址 | 精品午夜寂寞黄网站在线 | 久久影院中文字幕 | 国产传媒在线播放 | 亚洲免费网站在线观看 | 欧美香蕉视频 | 99国产国人青青视频在线观看 | 99精品免费在线 | ffyybb免费福利视频 | 88av视频在线观看 | 成年人免费看的视频 | 亚洲天堂岛国片 | 精品国产成人a区在线观看 精品国产91久久久久久久 | 欧美一级一级做性视频 | 亚洲国产高清一区二区三区 | 好奇害死猫在线观看 | xxxxx性bbbbb欧美| 国内会所按摩推拿国产 | 跪趴好紧h | 亚洲精品中文字幕在线 | 久久中文字幕综合不卡一二区 | 99国产国人青青视频在线观看 | 亚洲 制服 欧美 中文字幕 | 成人免费影院 | 特级www| 免费一级特黄特色大片在线 | 黑人巨大精品战中国美女 | 国产成人福利免费视频 | 日本十大顶级绝伦推理片 | 久久精品熟女亚洲AV国产 | 麻豆网页| 美女被视频网站看免费入口 | 91精品国产高清久久久久久io | 成人黄色免费网站 |