字符串數據類型是Redis里最常用的類型了,它的鍵和值都是字符串,使用起來非常的方便。雖然字符串數據類型的值都統稱為字符串了,但是在實際存儲時會根據值的不同自動選擇合適的編碼。字符串對象的編碼一共有三種:int、raw、embstr。
Redis對象
Redis用統一的數據結構來表示一個對象,具體定義如下:
1
2
3
4
5
6
7
8
9
10
11
12
|
typedef struct redisObject { unsigned type:4; unsigned encoding:4; // 當內存超限時采用LRU算法清除內存中的對象 unsigned lru:LRU_BITS; /* LRU time (relative to global lru_clock) or * LFU data (least significant 8 bits frequency * and most significant 16 bits access time). */ // 該對象被引用數 int refcount; // 對象的值指針 void *ptr; } robj; |
其中type字段代表對象的類型,取值一共有7種:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
/* A redis object, that is a type able to hold a string / list / set */ /* The actual Redis Object */ #define OBJ_STRING 0 /* 字符串對象. */ #define OBJ_LIST 1 /* 列表對象. */ #define OBJ_SET 2 /* 集合對象. */ #define OBJ_ZSET 3 /* 有序集合對象. */ #define OBJ_HASH 4 /* 哈希對象. */ /* The "module" object type is a special one that signals that the object * is one directly managed by a Redis module. In this case the value points * to a moduleValue struct, which contains the object value (which is only * handled by the module itself) and the RedisModuleType struct which lists * function pointers in order to serialize, deserialize, AOF-rewrite and * free the object. * * Inside the RDB file, module types are encoded as OBJ_MODULE followed * by a 64 bit module type ID, which has a 54 bits module-specific signature * in order to dispatch the loading to the right module, plus a 10 bits * encoding version. */ #define OBJ_MODULE 5 /* 模塊對象. */ #define OBJ_STREAM 6 /* 流對象. */ |
然后是encoding字段,代表著對象值的實際編碼類型,取值一共有11種:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
/* Objects encoding. Some kind of objects like Strings and Hashes can be * internally represented in multiple ways. The 'encoding' field of the object * is set to one of this fields for this object. */ #define OBJ_ENCODING_RAW 0 /* 簡單動態字符串 */ #define OBJ_ENCODING_INT 1 /* long類型的整數 */ #define OBJ_ENCODING_HT 2 /* 字典 */ #define OBJ_ENCODING_ZIPMAP 3 /* 壓縮字典 */ #define OBJ_ENCODING_LINKEDLIST 4 /* 不再使用的舊列表,使用雙端鏈表. */ #define OBJ_ENCODING_ZIPLIST 5 /* 壓縮列表 */ #define OBJ_ENCODING_INTSET 6 /* 整數集合 */ #define OBJ_ENCODING_SKIPLIST 7 /* 跳躍表和字典 */ #define OBJ_ENCODING_EMBSTR 8 /* embstr編碼的簡單動態字符串 */ #define OBJ_ENCODING_QUICKLIST 9 /* 編碼為ziplist的列表 */ #define OBJ_ENCODING_STREAM 10 /* 編碼為listpacks的基數樹 */ |
前面已經提到字符串對象只用到了long類型的整數、簡單動態字符串、embstr編碼的簡單動態字符串這三種編碼。
OBJ_ENCODING_INT
當字符串對象的值是一個整數且可以用long來表示時,字符串對象的編碼就會是OBJ_ENCODING_INT編碼。
可以看到,當值非常大的時候還是用OBJ_ENCODING_RAW來存儲的。
OBJ_ENCODING_RAW
當字符串對象的值是一個字符串且長度大于44字節時,字符串對象的編碼就會是OBJ_ENCODING_RAW編碼。具體結構在下文。
OBJ_ENCODING_EMBSTR
當字符串對象的值是一個字符串且長度小于等于44字節時,字符串對象的編碼就會是OBJ_ENCODING_EMBSTR編碼。OBJ_ENCODING_EMBSTR編碼和OBJ_ENCODING_RAW編碼的區別主要有以下幾點:
- OBJ_ENCODING_RAW編碼的對象在分配內存時會分配兩次,分別創建redisObject對象和SDS對象。而OBJ_ENCODING_EMBSTR編碼則是一次就分配好。
- 同樣的,OBJ_ENCODING_RAW編碼的對象釋放內存也需要兩次,OBJ_ENCODING_EMBSTR編碼則是一次。
- OBJ_ENCODING_EMBSTR編碼的數據都存儲在連續的內存上,OBJ_ENCODING_RAW編碼則不是。
1
2
3
4
5
6
7
8
9
10
11
12
13
|
/* Create a string object with EMBSTR encoding if it is smaller than * OBJ_ENCODING_EMBSTR_SIZE_LIMIT, otherwise the RAW encoding is * used. * * The current limit of 44 is chosen so that the biggest string object * we allocate as EMBSTR will still fit into the 64 byte arena of jemalloc. */ #define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44 robj *createStringObject( const char *ptr, size_t len) { if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT) return createEmbeddedStringObject(ptr,len); else return createRawStringObject(ptr,len); } |
SDS
字符串是Redis里非常常見的類型,而用C實現的Redis和Java不一樣。在C里字符串是用長度為N+1的字符數組實現的,且使用空字符串'\0'作為結束符號。獲取字符串的長度需要遍歷一遍,找到空字符串'\0'才知道字符串的長度,復雜度是O(N)。
如果有一個長度非常大的字符串,單線程的Redis獲取它的長度就可能會阻塞很久,這是不能接受的,所以Redis需要一種更高效的字符串類型。
Redis實現了一個叫SDS(simple dynamic string)的字符串類型,其中有兩個變量來分別代表字符串的長度和字符數組未使用的字符數量,這樣就可以用O(1)的復雜度來獲取字符串的長度了,而且同樣也是使用空字符串'\0'作為結束符號。
1
2
3
4
5
6
7
8
|
struct sdshdr { // 字符串長度 int len; // 字符數組未使用的字符數量 int free ; // 保存字符串的字符數組 char buf[]; } |
擴容機制
SDS在字符數組空間不足于容納新字符串的時候會自動擴容。
如果把一個C字符串拼接到一個SDS后面,當字符數組空間不足時,SDS會先擴容到剛好可以容納新字符串的長度,然后再擴充新字符串的空字符長度,最終SDS的字符數組長度等于 2 * 新字符串 + 1(結束符號'\0')。不過當新字符串的大小超過1MB后,擴充的空字符長度大小會固定為1MB。
之所以會有這個機制,是因為Redis作為一個NoSQL數據庫,會頻繁的修改字符串,擴容機制相當于給SDS做了一個緩沖池。把SDS連續增長N次字符串需要內存重分配N次優化成了SDS連續增長N次字符串最多需要內存重分配N次,這其實和Java里的StringBuilder實現思想是一樣的。
后記
我看過兩本關于Redis的書,里面都是講Redis如何實戰的,并沒有講Redis的設計和實現。這也就導致了面試很尷尬,因為面試官最喜歡問原理相關的東西了,所以以后學習技術的時候不要從實戰類的書籍開始了,還是先看懂原理比較好。
這是《Redis設計與實現》里字符串一節的總結。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對服務器之家的支持。
原文鏈接:https://juejin.im/post/5caaa9d4e51d452b540a9ef2