一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|數(shù)據(jù)庫(kù)技術(shù)|

服務(wù)器之家 - 數(shù)據(jù)庫(kù) - Redis - Redis 中的布隆過(guò)濾器的實(shí)現(xiàn)

Redis 中的布隆過(guò)濾器的實(shí)現(xiàn)

2019-11-19 18:15JayChen Redis

這篇文章主要介紹了Redis 中的布隆過(guò)濾器的實(shí)現(xiàn),詳細(xì)的介紹了什么是布隆過(guò)濾器以及如何實(shí)現(xiàn),非常具有實(shí)用價(jià)值,需要的朋友可以參考下

什么是『布隆過(guò)濾器』

布隆過(guò)濾器是一個(gè)神奇的數(shù)據(jù)結(jié)構(gòu),可以用來(lái)判斷一個(gè)元素是否在一個(gè)集合中。很常用的一個(gè)功能是用來(lái)去重。在爬蟲中常見(jiàn)的一個(gè)需求:目標(biāo)網(wǎng)站 URL 千千萬(wàn),怎么判斷某個(gè) URL 爬蟲是否寵幸過(guò)?簡(jiǎn)單點(diǎn)可以爬蟲每采集過(guò)一個(gè) URL,就把這個(gè) URL 存入數(shù)據(jù)庫(kù)中,每次一個(gè)新的 URL 過(guò)來(lái)就到數(shù)據(jù)庫(kù)查詢下是否訪問(wèn)過(guò)。

?
1
select id from table where url = 'https://jaychen.cc'

但是隨著爬蟲爬過(guò)的 URL 越來(lái)越多,每次請(qǐng)求前都要訪問(wèn)數(shù)據(jù)庫(kù)一次,并且對(duì)于這種字符串的 SQL 查詢效率并不高。除了數(shù)據(jù)庫(kù)之外,使用 Redis 的 set 結(jié)構(gòu)也可以滿足這個(gè)需求,并且性能優(yōu)于數(shù)據(jù)庫(kù)。但是 Redis 也存在一個(gè)問(wèn)題:耗費(fèi)過(guò)多的內(nèi)存。這個(gè)時(shí)候布隆過(guò)濾器就很橫的出場(chǎng)了:這個(gè)問(wèn)題讓我來(lái)。

相比于數(shù)據(jù)庫(kù)和 Redis,使用布隆過(guò)濾器可以很好的避免性能和內(nèi)存占用的問(wèn)題。

布隆過(guò)濾器本質(zhì)是一個(gè)位數(shù)組,位數(shù)組就是數(shù)組的每個(gè)元素都只占用 1 bit 。每個(gè)元素只能是 0 或者 1。這樣申請(qǐng)一個(gè) 10000 個(gè)元素的位數(shù)組只占用 10000 / 8 = 1250 B 的空間。布隆過(guò)濾器除了一個(gè)位數(shù)組,還有 K 個(gè)哈希函數(shù)。當(dāng)一個(gè)元素加入布隆過(guò)濾器中的時(shí)候,會(huì)進(jìn)行如下操作:

  • 使用 K 個(gè)哈希函數(shù)對(duì)元素值進(jìn)行 K 次計(jì)算,得到 K 個(gè)哈希值。
  • 根據(jù)得到的哈希值,在位數(shù)組中把對(duì)應(yīng)下標(biāo)的值置為 1。

舉個(gè),假設(shè)布隆過(guò)濾器有 3 個(gè)哈希函數(shù):f1, f2, f3 和一個(gè)位數(shù)組 arr。現(xiàn)在要把 https://jaychen.cc 插入布隆過(guò)濾器中:

  • 對(duì)值進(jìn)行三次哈希計(jì)算,得到三個(gè)值 n1, n2, n3。
  • 把位數(shù)組中三個(gè)元素 arr[n1], arr[n2], arr[3] 置為 1。

當(dāng)要判斷一個(gè)值是否在布隆過(guò)濾器中,對(duì)元素再次進(jìn)行哈希計(jì)算,得到值之后判斷位數(shù)組中的每個(gè)元素是否都為 1,如果值都為 1,那么說(shuō)明這個(gè)值在布隆過(guò)濾器中,如果存在一個(gè)值不為 1,說(shuō)明該元素不在布隆過(guò)濾器中。

看不懂文字看下面的靈魂畫手的圖解釋

Redis 中的布隆過(guò)濾器的實(shí)現(xiàn)

看了上面的說(shuō)明,必然會(huì)提出一個(gè)問(wèn)題:當(dāng)插入的元素原來(lái)越多,位數(shù)組中被置為 1 的位置就越多,當(dāng)一個(gè)不在布隆過(guò)濾器中的元素,經(jīng)過(guò)哈希計(jì)算之后,得到的值在位數(shù)組中查詢,有可能這些位置也都被置為 1。這樣一個(gè)不存在布隆過(guò)濾器中的也有可能被誤判成在布隆過(guò)濾器中。但是如果布隆過(guò)濾器判斷說(shuō)一個(gè)元素不在布隆過(guò)濾器中,那么這個(gè)值就一定不在布隆過(guò)濾器中。簡(jiǎn)單來(lái)說(shuō):

  • 布隆過(guò)濾器說(shuō)某個(gè)元素在,可能會(huì)被誤判。
  • 布隆過(guò)濾器說(shuō)某個(gè)元素不在,那么一定不在。

這個(gè)布隆過(guò)濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒(méi)有訪問(wèn)過(guò)的 URL 可能會(huì)被誤判為訪問(wèn)過(guò),但是如果是訪問(wèn)過(guò)的 URL 一定不會(huì)被誤判為沒(méi)訪問(wèn)過(guò)。

Redis 中的布隆過(guò)濾器

redis 在 4.0 的版本中加入了 module 功能,布隆過(guò)濾器可以通過(guò) module 的形式添加到 redis 中,所以使用 redis 4.0 以上的版本可以通過(guò)加載 module 來(lái)使用 redis 中的布隆過(guò)濾器。但是這不是最簡(jiǎn)單的方式,使用 docker 可以直接在 redis 中體驗(yàn)布隆過(guò)濾器。

?
1
2
> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom
> docker exec -it bloomfilter redis-cli

redis 布隆過(guò)濾器主要就兩個(gè)命令:

  • bf.add 添加元素到布隆過(guò)濾器中:bf.add urls https://jaychen.cc
  • bf.exists 判斷某個(gè)元素是否在過(guò)濾器中:bf.exists urls https://jaychen.cc

上面說(shuō)過(guò)布隆過(guò)濾器存在誤判的情況,在 redis 中有兩個(gè)值決定布隆過(guò)濾器的準(zhǔn)確率:

  • error_rate :允許布隆過(guò)濾器的錯(cuò)誤率,這個(gè)值越低過(guò)濾器的位數(shù)組的大小越大,占用空間也就越大。
  • initial_size :布隆過(guò)濾器可以儲(chǔ)存的元素個(gè)數(shù),當(dāng)實(shí)際存儲(chǔ)的元素個(gè)數(shù)超過(guò)這個(gè)值之后,過(guò)濾器的準(zhǔn)確率會(huì)下降。

redis 中有一個(gè)命令可以來(lái)設(shè)置這兩個(gè)值:

?
1
bf.reserve urls 0.01 100

三個(gè)參數(shù)的含義:

  • 第一個(gè)值是過(guò)濾器的名字。
  • 第二個(gè)值為 error_rate 的值。
  • 第三個(gè)值為 initial_size 的值。

使用這個(gè)命令要注意一點(diǎn):執(zhí)行這個(gè)命令之前過(guò)濾器的名字應(yīng)該不存在,如果執(zhí)行之前就存在會(huì)報(bào)錯(cuò):(error) ERR item exists

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

原文鏈接:https://segmentfault.com/a/1190000016721700

延伸 · 閱讀

精彩推薦
  • RedisRedis全量復(fù)制與部分復(fù)制示例詳解

    Redis全量復(fù)制與部分復(fù)制示例詳解

    這篇文章主要給大家介紹了關(guān)于Redis全量復(fù)制與部分復(fù)制的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Redis爬蟲具有一定的參考學(xué)習(xí)...

    豆子先生5052019-11-27
  • Redisredis實(shí)現(xiàn)排行榜功能

    redis實(shí)現(xiàn)排行榜功能

    排行榜在很多地方都能使用到,redis的zset可以很方便地用來(lái)實(shí)現(xiàn)排行榜功能,本文就來(lái)簡(jiǎn)單的介紹一下如何使用,具有一定的參考價(jià)值,感興趣的小伙伴們...

    乘月歸5022021-08-05
  • Redisredis中如何使用lua腳本讓你的靈活性提高5個(gè)逼格詳解

    redis中如何使用lua腳本讓你的靈活性提高5個(gè)逼格詳解

    這篇文章主要給大家介紹了關(guān)于redis中如何使用lua腳本讓你的靈活性提高5個(gè)逼格的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具...

    一線碼農(nóng)5812019-11-18
  • RedisRedis如何實(shí)現(xiàn)數(shù)據(jù)庫(kù)讀寫分離詳解

    Redis如何實(shí)現(xiàn)數(shù)據(jù)庫(kù)讀寫分離詳解

    Redis的主從架構(gòu),能幫助我們實(shí)現(xiàn)讀多,寫少的情況,下面這篇文章主要給大家介紹了關(guān)于Redis如何實(shí)現(xiàn)數(shù)據(jù)庫(kù)讀寫分離的相關(guān)資料,文中通過(guò)示例代碼介紹...

    羅兵漂流記6092019-11-11
  • RedisRedis 事務(wù)知識(shí)點(diǎn)相關(guān)總結(jié)

    Redis 事務(wù)知識(shí)點(diǎn)相關(guān)總結(jié)

    這篇文章主要介紹了Redis 事務(wù)相關(guān)總結(jié),幫助大家更好的理解和學(xué)習(xí)使用Redis,感興趣的朋友可以了解下...

    AsiaYe8232021-07-28
  • Redis詳解Redis復(fù)制原理

    詳解Redis復(fù)制原理

    與大多數(shù)db一樣,Redis也提供了復(fù)制機(jī)制,以滿足故障恢復(fù)和負(fù)載均衡等需求。復(fù)制也是Redis高可用的基礎(chǔ),哨兵和集群都是建立在復(fù)制基礎(chǔ)上實(shí)現(xiàn)高可用的...

    李留廣10222021-08-09
  • RedisRedis的配置、啟動(dòng)、操作和關(guān)閉方法

    Redis的配置、啟動(dòng)、操作和關(guān)閉方法

    今天小編就為大家分享一篇Redis的配置、啟動(dòng)、操作和關(guān)閉方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧 ...

    大道化簡(jiǎn)5312019-11-14
  • Redisredis 交集、并集、差集的具體使用

    redis 交集、并集、差集的具體使用

    這篇文章主要介紹了redis 交集、并集、差集的具體使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友...

    xiaojin21cen10152021-07-27
主站蜘蛛池模板: 极限淫生小说 | 日本xxx片免费高清在线 | 婷婷去我也去 | 2020国产精品亚洲综合网 | v视界影院.vsjla | 午夜爱爱片 | 性色视频免费 | 97se亚洲国产综合自在线观看 | 亚洲视频在线免费 | 精品欧美一区二区三区四区 | 青草免费在线 | 五月天色网站 | 暖暖免费观看高清在线 | 爱福利视频一区 | 日本不卡高清免费v日本 | 亚洲精品私拍国产福利在线 | 国产麻豆精品视频 | 久久精品久久久 | 欧美肥乳| 国产一区二区三区欧美 | 欧美成人一区二区 | 苍井空av | 2018天天拍拍拍免费视频 | 海角社区在线登录 | 四虎最新永久在线精品免费 | 国产欧美日韩图片一区二区 | 天堂网www在线中文天堂 | 国产免费小视频在线观看 | 亚洲精品AV无码喷奶水糖心 | 99视频免费 | 成人午夜在线视频 | 国产99热99 | 变态 调教 视频 国产九色 | 国产盗摄wc厕所撒尿视频 | 99草精品视频 | 欧美一级免费看 | 国产一级精品高清一级毛片 | 日韩在线二区全免费 | 亚洲国产精品一区二区久久 | 成年男人永久免费看片 | 我不卡影院手机在线观看 |