在redis中,当我们想要知道一个key的类型的时候,我们可以使用type命令
eg
1 | 127.0.0.1:6379> set a "123" |
如果这个key不存在的话,会返回none
eg:
1 | 127.0.0.1:6379> type abcd |
type命令实际返回的就是当前键的数据结构类型,它们分别是:
- string(字符串)
- hash(哈希)
- list(列表)
- set(集合)
- zset(有序集合)
但这些只是Redis对外的数据结构。每种数据结构都有自己底层的内部实现,并且每个都有多种实现,这样方便redis在合适的场景选择适合当前的编码方式。
下图是redis每种数据结构对应的内部编码
redis数据结构内部编码
我们 可以通过 object encoding
命令查询
eg:
1 | 127.0.0.1:6379> set hello "sss" |
从上面查询的结果我们可以看到,redis的string数据结构会根据输入的value不同使用不同的数据结构。
下面我们从源码(基于redis 5.0.5)来分析下
在redis中,的每个键值内部都是使用一个名字叫做 redisObject 这个 C语言结构体保存的,其代码如下:
1 | typedef struct redisObject { |
- type:表示键值的数据类型,包括 String、List、Set、ZSet、Hash
encoding:表示键值的内部编码方式,从 Redis源码看目前取值有如下几种:
1
2
3
4
5
6
7
8
9
10
11
12
13
14/* Objects encoding. Some kind of objects like Strings and Hashes can be
* internally represented in multiple ways. The 'encoding' field of the object
* is set to one of this fields for this object. */refcount:表示该键值被引用的数量,即一个键值可被多个键引用。
String类型的内部编码
在了解string类型的内部编码之前,我们先看下SDS:
关于SDS的详情可以异步到 https://redis.io/topics/internals-sds
SDS(Simple dynamic string 简单动态字符串): 当你在阅读源码的时候,你可以很容易见到这个这个词。在代码里定义了5种SDS(源码在sds.h)
1 |
|
从上面的代码片段中,我们可以看出每个struct内的变量都差不多
- len:字符串的长度(实际使用的长度)
- alloc:分配内存的大小
- flags:标志位,低三位表示类型,其余五位未使用
- buf:字符数组
通过上面的一系列枯燥的铺垫,我们开始切入正题
1. INT 编码方式
当字符串键值的内容可以用一个64位有符号整型表示的时候,redis会将键值转换为long类型来存储,其对应的编码类型为:OBJ_ENCODING_INT
对于set hel "123"
命令,内存结构如下
Redis 启动时会预先建立 10000 个分别存储 0~9999 的 redisObject 变量作为共享对象,这就意味着如果 set字符串的键值在 0~10000 之间的话,则可以 直接指向共享对象 而不需要再建立新对象。
1 | /* Check if we can represent this string as a long integer. |
2. EMBSTR编码格式
Redis 在保存长度小于 44 字节的字符串时会采用 OBJ_ENCODING_EMBSTR 编码方式,源码如下(object.c
):
1 | /* Create a string object with EMBSTR encoding if it is smaller than |
指令 set hello “sss” 所设置的键值,其内存结构示意图如下:
3. RAW 编码格式
通过上面的源码分析,当字符串键值的长度大于44的时候,redis会将键值的内部编码方式改为OBJ_ENCODING_RAW格式
1 | /* Create a string object with encoding OBJ_ENCODING_RAW, that is a plain |
与上面的 OBJ_ENCODING_EMBSTR 编码方式的不同之处在于 此时动态字符串 sds 的内存与其依赖的 redisObject 的 内存不再连续了
v1.5.2