一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - 編程技術 - qqwry.dat的數據結構圖文解釋

qqwry.dat的數據結構圖文解釋

2020-07-02 15:41計算機編程教程 編程技術

QQwry.dat可以看作是一種數據文件,通過它能完成以下任務

輸入:IP地址———>輸出:這個IP地址所在的國家,地名,有時甚至能精細到樓層。

網絡上的IP數據庫以純真版的最為流行,LumaQQ也采用了純真版IP數據庫做為IP查詢功能的基礎。不過關于其格式的文檔卻非常之少,后來終于在網上找到了幾份文檔,才知道其內幕,現在將我對Qqwry.dat的數據結構的理解展現出來。讓更多人明白它的內幕。

詳解解構:

 

1.         qq.dat的數據存儲格式:

 1.1三大塊:

   文件頭;

   記錄區;

   索引區;

   如圖:
qqwry.dat的數據結構圖文解釋

 1.2詳細解釋三大塊:

   1.2.1第一塊:文件頭

        文件頭是8個字節長度,前四個字節存儲了第一條索引的絕對地址,后四個字節存儲了最后一條索引的絕對地址。

格式如圖:

   1.2.2第二塊:索引區:

 索引區格式如下圖:
qqwry.dat的數據結構圖文解釋

先說一下IP地址的起始IP和結束IP。例如:中國,美國,英國每個國家都分配有不同的IP段,IP段就是由起始IP和結束IP組成,從起始IP到結束IP內的所有IP就組成了我們所說的IP段。比如:

010.018.132.000 010.018.132.255 [河北][承德169用戶]
010.018.160.000 010.018.255.255 [河北][唐山]

再來說一下索引區的存儲結構,它存儲了很多條索引,每條索引的格式為7個字節,前四個字節表示的是一個IP段的起始字節,后三個字節是鏈接到以這個起始IP開始的IP段內的所有IP記錄的地址,也就是說它是一個絕對地址,用于到鏈接到記錄區查詢國家,地區的數據。

   1.2.3第三塊:記錄區:

        記錄區的數據格式不定,數據主要有以下類型:

        A:結束IP

        B:國家記錄 (以0x 00結束 )

        C: 地區記錄 (以0x 00結束 )

        D:標識字符:

        E:絕對偏移量

 

 

以上是我參考了網上各位大蝦的解釋后,根據自己的了解和感受,把這個問題再詳細的解釋一次,希望能給大家幫助。

附:本文圖片是參考的

 

自從有了IP數據庫這種東西,QQ外掛的顯示IP功能也隨之而生,本人見識頗窄,是否還有其他應用不得而知,不過,IP數據庫確實是個不錯的東西。如今網絡上最流行的IP數據庫我想應該是純真版的(說錯了也不要扁我),迄今為止其IP記錄條數已經接近30000,對于有些IP甚至能精確到樓層,不亦快哉。2004年4、5月間,正逢LumaQQ破土動工,為了加上這個人人都喜歡,但是好像人人都不知道為什么喜歡的顯IP功能,我也采用了純真版IP數據庫,它的優點是記錄多,查詢速度快,它只用一個文件QQWry.dat就包含了所有記錄,方便嵌入到其他程序中,也方便升級。

基本結構

 

QQWry.dat文件在結構上分為3塊:文件頭,記錄區,索引區。一般我們要查找IP時,先在索引區查找記錄偏移,然后再到記錄區讀出信息。由于記錄區的記錄是不定長的,所以直接在記錄區中搜索是不可能的。由于記錄數比較多,如果我們遍歷索引區也會是有點慢的,一般來說,我們可以用二分查找法搜索索引區,其速度比遍歷索引區快若干數量級。圖1是QQWry.dat的文件結構圖。

qqwry.dat的數據結構圖文解釋

圖1. QQWry.dat文件結構

要注意的是,QQWry.dat里面全部采用了little-endian字節序

一. 了解文件頭

QQWry.dat的文件頭只有8個字節,其結構非常簡單,首四個字節是第一條索引的絕對偏移,后四個字節是最后一條索引的絕對偏移。

二. 了解記錄區

每條IP記錄都由國家和地區名組成,國家地區在這里并不是太確切,因為可能會查出來“清華大學計算機系”之類的,這里清華大學就成了國家名了,所以這個國家地區名和IP數據庫制作的時候有關系。所以記錄的格式有點像QName,有一個全局部分和局部部分組成,我們這里還是沿用國家名和地區名的說法。

于是我們想象著一條記錄的格式應該是: [IP地址][國家名][地區名],當然,這個沒有什么問題,但是這只是最簡單的情況。很顯然,國家名和地區名可能會有很多的重復,如果每條記錄都保存一個完整的名稱拷貝是非常不理想的,所以我們就需要重定向以節省空間。所以為了得到一個國家名或者地區名,我們就有了兩個可能:第一就是直接的字符串表示的國家名,第二就是一個4字節的結構,第一個字節表明了重定向的模式,后面3個字節是國家名或者地區名的實際偏移位置。對于國家名來說,情況還可能更復雜些,因為這樣的重定向最多可能有兩次。

那么什么是重定向模式?根據上面所說,一條記錄的格式是[IP地址][國家記錄][地區記錄],如果國家記錄是重定向的話,那么地區記錄是有可能沒有的,于是就有了兩種情況,我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明:

qqwry.dat的數據結構圖文解釋

圖2. IP記錄的最簡單形式

圖2表示了最簡單的IP記錄格式,我想沒有什么可以解釋的

qqwry.dat的數據結構圖文解釋

圖3. 重定向模式1

圖3演示了重定向模式1的情況。我們看到在模式1的情況下,地區記錄也跟著國家記錄走了,在IP地址之后只剩下了國家記錄的4字節,后面3個字節構成了一個指針,指向了實際的國家名,然后又跟著地址名。模式1的標識字節是0x01。

qqwry.dat的數據結構圖文解釋

圖4. 重定向模式2

圖4演示了重定向模式2的情況。我們看到了在模式2的情況下(其標識字節是0x02),地區記錄沒有跟著國家記錄走,因此在國家記錄之后4個字節之后還是有地區記錄。我想你已經明白了模式1和模式2的區別,即:模式1的國家記錄后面不會再有地區記錄,模式2的國家記錄后會有地區記錄。下面我們來看一下更復雜的情況。

qqwry.dat的數據結構圖文解釋

圖5. 混和情況1

圖5演示了當國家記錄為模式1的時候可能出現的更復雜情況,在這種情況下,重定向指向的位置仍然是個重定向,不過第二次重定向為模式2。大家不用擔心,沒有模式3了,這個重定向也最多只有兩次,并且如果發生了第二次重定向,則其一定為模式2,而且這種情況只會發生在國家記錄上,對于地區記錄,模式1和模式2是一樣的,地區記錄也不會發生2次重定向。不過,這個圖還可以更復雜,如圖7:

qqwry.dat的數據結構圖文解釋

圖6. 混和情況2

圖6是模式1下最復雜的混和情況,不過我想應該也很好理解,只不過地區記錄也來重定向而已,有一點我要提醒你,如果重定向的地址是0,則表示未知的地區名。

所以我們總結如下:一條IP記錄由[IP地址][國家記錄][地區記錄]組成,對于國家記錄,可以有三種表示方式:字符串形式,重定向模式1和重定向模式2。對于地區記錄,可以有兩種表示方式:字符串形式和重定向,另外有一條規則:重定向模式1的國家記錄后不能跟地區記錄。按照這個總結,在這些方式中合理組合,就構成了IP記錄的所有可能情況。

設計的理由

 

在我們繼續去了解索引區的結構之前,我們先來了解一下為何記錄區的結構要如此設計。我想你可能想到了答案:字符串重用。沒錯,在這種結構下,對于一個國家名和地區名,我只需要保存其一次就可以了。我們舉例說明,為了表示方便,我們用小寫字母代表IP記錄,C表示國家名,A表示地區名:

  1. 有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2, A1 = A2,那么我們就可以使用圖3顯示的結構來實現重用

  2. 有三條記錄a(C1, A1), b(C2, A2), c(C3, A3),如果C1 = C2, A2 = A3,現在我們想存儲記錄b,那么我們可以用圖6的結構來實現重用

  3. 有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2,現在我們想存儲記錄b,那么我們可以采用模式2表示C2,用字符串表示A2

 

你可以舉出更多的情況,你也會發現在這種結構下,不同的字符串只需要存儲一次。

了解索引區

 

在"了解文件頭"部分,我們說明了文件頭實際上是兩個指針,分別指向了第一條索引和最后一條索引的絕對偏移。如圖8所示:

qqwry.dat的數據結構圖文解釋

圖8. 文件頭指向索引區圖示

實在是很簡單,不是嗎?從文件頭你就可以定位到索引區,然后你就可以開始搜索IP了!每條索引長度為7個字節,前4個字節是起始IP地址,后三個字節就指向了IP記錄。這里有些概念需要說明一下,什么是起始IP,那么有沒有結束IP? 假設有這么一條記錄:166.111.0.0 - 166.111.255.255,那么166.111.0.0就是起始IP,166.111.255.255就是結束IP,結束IP就是IP記錄中的那頭4個字節,這下你應該就清楚了吧。于是乎,每條索引配合一條記錄,構成了一個IP范圍,如果你要查找166.111.138.138所在的位置,你就會發現166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個范圍內,那么你就可以順著這條索引去讀取國家和地區名了。那么我們給出一個最詳細的圖解吧:

qqwry.dat的數據結構圖文解釋

圖9. 文件詳細結構

現在一切都清楚了是不是?也許還有一點你不清楚,QQWry.dat的版本信息存在哪里呢? 答案是:最后一條IP記錄實際上就是版本信息,最后一條記錄顯示出來就是這樣:255.255.255.0 255.255.255.255 純真網絡 2004年6月25日IP數據。OK,到現在你應該全部清楚了。

Demo

 

下一步:我給出一個讀取IP記錄的程序片斷,此片斷摘錄自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java,如果你有興趣,可以下載源代碼詳細看看。

 /**
 * 給定一個ip國家地區記錄的偏移,返回一個IPLocation結構
 * @param offset 國家記錄的起始偏移
 * @return IPLocation對象
 */
 private IPLocation getIPLocation(long offset) {
 try {
  // 跳過4字節ip
  ipFile.seek(offset + 4);
  // 讀取第一個字節判斷是否標志字節
  byte b = ipFile.readByte();
  if(b == REDIRECT_MODE_1) {
  // 讀取國家偏移
  long countryOffset = readLong3();
  // 跳轉至偏移處
  ipFile.seek(countryOffset);
  // 再檢查一次標志字節,因為這個時候這個地方仍然可能是個重定向
  b = ipFile.readByte();
  if(b == REDIRECT_MODE_2) {
   loc.country = readString(readLong3());
   ipFile.seek(countryOffset + 4);
  } else
   loc.country = readString(countryOffset);
  // 讀取地區標志
  loc.area = readArea(ipFile.getFilePointer());
  } else if(b == REDIRECT_MODE_2) {
  loc.country = readString(readLong3());
  loc.area = readArea(offset + 8);
  } else {
  loc.country = readString(ipFile.getFilePointer() - 1);
  loc.area = readArea(ipFile.getFilePointer());
  }
  return loc;
 } catch (IOException e) {
  return null;
 }
 } 

 /**
 * 從offset偏移開始解析后面的字節,讀出一個地區名
 * @param offset 地區記錄的起始偏移
 * @return 地區名字符串
 * @throws IOException 地區名字符串
 */
 private String readArea(long offset) throws IOException {
 ipFile.seek(offset);
 byte b = ipFile.readByte();
 if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
  long areaOffset = readLong3(offset + 1);
  if(areaOffset == 0)
  return LumaQQ.getString("unknown.area");
  else
  return readString(areaOffset);
 } else
  return readString(offset);
 }

 /**
 * 從offset位置讀取3個字節為一個long,因為java為big-endian格式,所以沒辦法
 * 用了這么一個函數來做轉換
 * @param offset 整數的起始偏移
 * @return 讀取的long值,返回-1表示讀取文件失敗
 */
 private long readLong3(long offset) {
 long ret = 0;
 try {
  ipFile.seek(offset);
  ipFile.readFully(b3);
  ret |= (b3[0] & 0xFF);
  ret |= ((b3[1] << 8) & 0xFF00);
  ret |= ((b3[2] << 16) & 0xFF0000);
  return ret;
 } catch (IOException e) {
  return -1;
 }
 } 
 
 /**
 * 從當前位置讀取3個字節轉換成long
 * @return 讀取的long值,返回-1表示讀取文件失敗
 */
 private long readLong3() {
 long ret = 0;
 try {
  ipFile.readFully(b3);
  ret |= (b3[0] & 0xFF);
  ret |= ((b3[1] << 8) & 0xFF00);
  ret |= ((b3[2] << 16) & 0xFF0000);
  return ret;
 } catch (IOException e) {
  return -1;
 }
 }

 /**
 * 從offset偏移處讀取一個以0結束的字符串
 * @param offset 字符串起始偏移
 * @return 讀取的字符串,出錯返回空字符串
 */
 private String readString(long offset) {
 try {
  ipFile.seek(offset);
  int i;
  for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
  if(i != 0) 
    return Utils.getString(buf, 0, i, "GBK");
 } catch (IOException e) {  
   log.error(e.getMessage());
 }
 return "";
 }

代碼并不復雜,getIPLocation是主要方法,它檢查國家記錄格式,并針對字符串形式,模式1,模式2采用不同的代碼,readArea則相對簡單,因為只有字符串和重定向兩種情況需要處理。

總結

 

純真IP數據庫的結構使得查找IP簡單迅速,不過你想要編輯它卻是比較麻煩的,我想應該需要專門的工具來生成QQWry.dat文件,由于其文件格式的限制,你要直接添加IP記錄就不容易了。不過,能查到IP已經很開心了,希望純真記錄越來越多~。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产成人久久久精品一区二区三区 | 天天做天天爱天天操 | www.亚洲色图| 国产一级片在线 | 成年视频在线观看免费 | 国产亚洲精品一区久久 | 欧美视频在线播放观看免费福利资源 | 四虎com| 俄罗斯12一15处交 | 好吊色永久免费视频大全 | 痴mu动漫成年动漫在线观看 | b片在线观看 | 精品国产麻豆免费人成网站 | 色综合中文字幕在线亚洲 | 日本wwxx护士| video one 中国按摩 | 2022国产麻豆剧果冻传媒入口 | 日本午夜影院 | 99网站在线观看 | 亚洲精品一线二线三线 | 狠狠综合久久综合网站 | 国产资源在线视频 | 精品91| 亚洲国产第一区二区香蕉日日 | 小早川怜子亚洲综合中文字幕 | 窝窝午夜精品一区二区 | 我的妹妹最近有点怪免费播放 | 99久热只有精品视频免费看 | 日韩欧美成末人一区二区三区 | 国产欧美二区三区 | 欧洲美女女同 | 操日日| 免费看视频的 | 亚洲国产在线午夜视频无 | 小嫩videos| 国内精品久久久久影院中国 | 日本人护士免费xxxx视频 | 男女天堂 | 日韩欧美推理片免费在线播放 | 视频网站入口在线看 | 精品无码人妻一区二区免费AV |