引言

在大数据年代，想要不断提高根据海量数据获取的决议计划、洞悉发现和流程优化等才干，就需求不断考虑，怎么在利用有限的资源完成高效稳定地产出可信且丰厚的数据，从而进步赋能下流产品的效率以及效果。在货拉拉数仓构建过程中，咱们不断探究各种方法来完成降本提效。例如在一些场景下，利用Bitmap去提高下流的数据运用体会，并达成咱们想要的降本提效的目的。

为了更好的展现Bitmap在货拉拉实践运用中的探究与实践，咱们分了两篇文章来介绍，本文首要介绍Bitmap的完成原理与运用优化，以及在一些常见事务场景中的实践运用，让我们在面临相应场景的时分，能够有一个差异于传统的处理方案的新思路。下一篇文章则是要点介绍Bitmap在货拉拉中的详细落地，以及运用时遇到的一些痛点和对应处理方案。

关于Bitmap

首要从Bitmap开始说起，这里选用经典的WWH结构，让不熟悉的小伙伴能够快速了解把握。

What

BitMap，即位图，是比较常见的数据结构，简略来说便是按位存储，首要为了处理在去重场景里边大数据量存储的问题。本质其实便是哈希表的一种运用完成，运用每个位来表明某个数字。

举个比方

假设有个1，3，5，7的数字调集，假如常规的存储方法，要用4个Int的空间。其中一个Int便是32位的空间。3个便是4*32Bit，相当于16个字节。

假如用Bitmap存储呢，只用8Bit（1个字节）就够了。bitmap经过运用每一bit位代表一个数，位号便是数值，1标识有，0标识无。如下所示：

BitMap的简略完成

关于 BitMap 这种经典的数据结构，在 Java 语言里边，其实已经有对应完成的数据结构类 java.util.BitSet 了，而 BitSet 的底层原理，其实便是用 long 类型的数组来存储元素，因为运用的是long类型的数组，而 1 long = 64 bit，所以数据巨细会是64的整数倍。这样看或许很难了解，下面参阅bitmap源码写了一个比方，并写上了详细的补白，便利了解

import java.util.Arrays;
public class BitMap {
    // 用 byte 数组存储数据
    private byte[] bits;
    // 指定 bitMap的长度
    private int bitSize;
    // bitmap结构器
    public BitMap(int bitSize) {
        this.bitSize = (bitSize >> 3) + 1;
        //1byte 能存储8个数据，那么要存储 bitSize的长度需求多少个bit呢，bitSize/8+1,右移3位相当于除以8
        bits = new byte[(bitSize >> 3) + 1];
    }
    // 在bitmap中刺进数字
    public void add(int num) {
        // num/8得到byte[]的index
        int arrayIndex = num >> 3;
        // num%8得到在byte[index]的方位
        int position = num & 0x07;
        //将1左移position后，那个方位天然便是1，然后和曾经的数据做|，这样，那个方位就替换成1了。
        bits[arrayIndex] |= 1 << position;
    }
    // 判别bitmap中是否包含某数字
    public boolean contain(int num) {
        // num/8得到byte[]的index
        int arrayIndex = num >> 3;
        // num%8得到在byte[index]的方位
        int position = num & 0x07;
        //将1左移position后，那个方位天然便是1，然后和曾经的数据做&，判别是否为0即可
        return (bits[arrayIndex] & (1 << position)) != 0;
    }
    // 铲除bitmap中的某个数字
    public void clear(int num) {
        // num/8得到byte[]的index
        int arrayIndex = num >> 3;
        // num%8得到在byte[index]的方位
        int position = num & 0x07;
        //将1左移position后，那个方位天然便是1，然后对取反，再与当时值做&，即可铲除当时的方位了.
        bits[arrayIndex] &= ~(1 << position);
    }
    // 打印底层bit存储
    public static void printBit(BitMap bitMap) {
        int index=bitMap.bitSize & 0x07;
        for (int j = 0; j < index; j++) {
            System.out.print("byte["+j+"] 的底层存储：");
            byte num = bitMap.bits[j];
            for (int i = 7; i >= 0; i--) {
                System.out.print((num & (1 << i)) == 0 ? "0" : "1");
            }
            System.out.println();
        }
    }
    // 输出数组元素，也能够运用Arrays的toString方法
    private static void printArray(int[] arr) {
        System.out.print("数组元素：");
        for (int i = 0; i < arr.length; i++) {
            System.out.print(arr[i]+" ");
        }
        System.out.println();
    }
}

下面就来简略玩一玩这个克己的BitMap，先尝试刺进一个3，并清理掉它，看看底层二进制结构是怎样变化的

public static void main(String[] args) {
    // 简略试验
    BitMap bitmap = new BitMap(3);
    bitmap.add(3);
    System.out.println("刺进3成功");
    boolean isexsit = bitmap.contain(3);
    System.out.println("3是否存在:" + isexsit);
    printBit(bitmap);
    bitmap.clear(3);
    isexsit = bitmap.contain(3);
    System.out.println("3是否存在:" + isexsit);
    printBit(bitmap);
}

输出成果如下：

再经过数组，刺进多个元素看看效果

public static void main(String[] args) {
    // 数组试验
    int[] arr = {8,3,3,4,9};
    printArray(arr);
    int size = Arrays.stream(arr).max().getAsInt();
    BitMap b = new BitMap(size);
    for (int i = 0; i < arr.length; i++) {
        b.add(arr[i]);
    }
    printBit(b);
}

输出成果如下：

BitSet源码了解

前面简略了解了一下BitMap，下面就经过源码来看看java是怎么完成BitSet的。

补白信息

翻开源码，首要映入眼帘的是下面这一段长长的补白，简略翻译一下，便于英语欠好的小伙伴了解

源码补白翻译如下

这个类完成了一个根据需求增加的位向量。位集的每个组件都有一个布尔值。BitSet的位由非负整数索引。能够检查、设置或铲除单个索引位。一个位集可用于经过逻辑AND、逻辑inclusive OR和逻辑exclusive OR操作修正另一个位集的内容。
默许状况下，调会集的一切位最初的值都为false。
每个BitSet都有一个当时巨细，即BitSet当时运用的空间位数。请注意，巨细与BitSet的完成有关，因此它或许会跟着完成而改变。BitSet的长度与BitSet的逻辑长度有关，而且与完成无关。
除非另有说明，否则将null参数传递给位会集的任何方法都将导致NullPointerException。
假如没有外部同步，BitSet关于多线程运用是不安全的。

中心片段了解

首要能够看到源码中，最中心的特色信息。在BitSet 中运用的是long[] 作为底层存储的数据结构，并经过一个 int 类型的变量，来记录当时已经运用数组元素的个数。

这种类型的特色结构很常见，比方StringBuilder、StringBuffer底层是一个char[] 作为存储，一个int 变量用来计数，相似的还有ArrayList，Vector等

/**
 * The internal field corresponding to the serialField "bits".
 */
 private long[] words; 
/**
 * The number of words in the logical size of this BitSet.
 */
 private transient int wordsInUse = 0;

再往下看，是一个很重要的方法，是用来获取某个数在数组中的下标，选用的算法是将这个数右移6位，这是因为 bitIndex >> 6 = bitIndex / (2^6) = bitIndex /64，而long便是64个字节

 private final static int ADDRESS_BITS_PER_WORD = 6;
 /**
 * Given a bit index, return word index containing it.
 */
private static int wordIndex(int bitIndex) {
    return bitIndex >> ADDRESS_BITS_PER_WORD;
}

接着比较有意思的便是它的空参结构器，BITS_PER_WORD默许是1<<6 也便是64，根据上面方法原理，wordIndex(64-1)+1 = 1 ，所以终究初始化的是长度为1的数组

private final static int BITS_PER_WORD = 1 << ADDRESS_BITS_PER_WORD;
/**
 * Creates a new bit set. All bits are initially {  @code false}.
 */
public BitSet() {
    initWords(BITS_PER_WORD);
    sizeIsSticky = false;
}
private void initWords(int nbits) {
    words = new long[wordIndex(nbits-1) + 1];
}

最后看到这个很经典也很重要的方法，因为底层是数组，在初始化的时分，并不知道将来会需求存储多大的数据，所以关于这一类底层中心完成结构是数组的实体类，一般会运用动态扩容的方法，详细完成细节也都大同小异，这里完成的动态扩容是原本的两倍，和Vector相似。

/**
 * Ensures that the BitSet can hold enough words.
 *  @param wordsRequired the minimum acceptable number of words.
 */
private void ensureCapacity(int wordsRequired) {
    // 假如数组的长度小于所需求的就要进行扩容
    if (words.length < wordsRequired) {
        // Allocate larger of doubled size or required size
        // 扩容终究的巨细，最小为原来的两倍
        int request = Math.max(2 * words.length, wordsRequired);
        // 创立新的数组，容量为request，然后将原本的数组拷贝到新的数组中
        words = Arrays.copyOf(words, request);
        // 并设置数组巨细不固定
        sizeIsSticky = false;
    }
}

至于其他的源码细节，因为篇幅有限，就暂且不表，感爱好的能够自行阅览～

Why

BitMap的特色

根据bitmap的完成原理，其实能够总结出运用bitmap的几个首要原因：

针对海量数据的存储，能够极大的节约存储成本！当需求存储一些很大，且无序，不重复的整数调集，那运用Bitmap的存储成本是十分低的。
因为其天然去重的特色，关于需求去重存储的数据很友爱！因为bitmap每个值都只对应仅有的一个方位，不能存储两个值，所以Bitmap结构天然合适做去重操作。
同样因为其下标的存在，能够快速定位数据！比方想判别数字 99999是否存在于该bitmap中，若是运用传统的调集型存储，那就要逐一遍历每个元素进行判别，时刻复杂度为O(N)。而因为选用Bitmap存储，只需检查对应的下标数的值是0还是1即可，时刻复杂度为O(1)。所以运用bitmap能够十分便利快速的查询某个数据是否在bitmap中。
还有因为其类调集的特性，关于一些调集的交并集等操作也能够支撑！比方想查询[1,2,3]与[3,4,5] 两个调集的交集，用传统方法取交集就要两层循环遍历。而Bitmap完成的底层原理，便是把01110000和00011100进行与操作就行了。而核算机做与、或、非、异或等等操作是十分快的。

尽管bitmap有诸多好处，可是正所谓人无完人，它也存在许多缺陷。

只能存储正整数而不能是其他的类型；
不合适存储稀少的调集，简略了解，一个调集寄存了两个数[1,99999999]，那用bitmap存储的话就很不划算，这也与它本来节约存储的优点也背离了；
不适用于存储重复的数据。

BitMap的优化

既然bitmap的优点如此突出，那应该怎么去优化它存在的一些限制呢？

针对存储非正整数的类型，如字符串类型的，能够考虑将字符串类型的数据利用相似hash的方法，映射成整数的方法来运用bitmap，可是这个方法会有hash抵触的问题，处理这个能够优化hash方法，选用多重hash来处理，可是根据经历，这个效果都不太好，一般的做法便是针对字符串建立映射表的方法。
针对bitmap的优化最中心的还是关于其存储成本的优化，毕竟大数据领域里边，大多数时分数据都是稀少数据，而咱们又常常需求运用到bitmap的特长，比方去重等特色，所以存在一些进一步的优化，比较闻名的有WAH、EWAH、RoaringBitmap等，其中性能最好而且运用最为广泛的当属RoaringBitmap

RoaringBitmap的中心原理

为了快速把这个原理说清楚，这里就不继续撸源码了，有爱好的小伙伴能够自行查找相关源码阅览，下面简略论述一下它的中心原理：1个Int 类型相当于有32 bit 也就相当于2^32=2^16 x 2^16，这意味着任意一个Int 类型能够拆分红两个16bit的来存储，每一个拆出来的都不会大于2^16， 2^16便是65536，而Int的正整数实践最大值为 2147483647。而RoaringBitmap的紧缩首要做的便是用原本的数去除65536，成果表明成(商，余数)，其中商和余数是都不会超越65536。

如下图所示

RoaringBitmap的做法便是将131138 原本32bit的存储结构，拆分红连两个16bit的结构，而拆分出的两个16bit别离存储了131138除65536的商2以及余数66。

在RoaringBitmap中，把商所在的16bit 被称为高16位，除数所在的16bit 被称为低16位。并用key和Container去存储的这些拆分出来的数据，其中key是short[] ，寄存的便是商，因为bitmap的特性，商和余数不会存在完全相同的状况。

经过商来作为key区分不同的Container，就相似区分不同的桶，key便是标识数据应该存在哪个桶，container用来存对应数据的低16位的数字。比方 1000和60666 除以65536后的成果别离是(0,1000)和(0,60666)，所以这两个数据存储到RoaringBitmap中，就会都放到key位0那个container中，container中便是1000和60666。

因为container中寄存的数字是0~65536的一些数据，或许稀少或许稠密，所以RoaringBitmap依据不同的场景，提供了 3 种不同的 Container，别离是 ArrayContainer 、 BitmapContainer 、RunContainer。

关于三个Container的存储原理如下：

ArrayContainer 存储的方法便是 shot类型的数组，每个数字占16bit 也便是2Byte，当id 数达到4096个时，占用4096×2 = 8196byte 也便是8kb，而id数最大是65536，占用 65536×2 =131072 byte 也便是128kb。
BitmapContainer存储的方法便是bitmap类型，bitmap的位数为 65536，能存储0~65535个数字，占用 65536/8/1024=8kb，也便是bitmap container占用空间恒定为8kb。
RunContainer存储的必须是接连的数字，比方存储1，2，3…100w，RunContainer就只会存储[1,100w]也便是开头和结束的一个数字，其紧缩效率取决于接连的数字有多长。

关于ArrayContainer和BitmapContainer的选择：

如图所示，能够看到ArrayContainer 更合适寄存稀少的数据，BitmapContainer 合适寄存稠密的数据。在RoaringBitmap中，若一个 Container 里边的元素数量小于 4096，会运用 ArrayContainer 来存储。当 Array Container 超越最大容量 4096 时，会转换为 BitmapContainer，这样能够最大化的优化存储。

how

bitmap就像一柄双刃剑，用的好能够协助咱们破除瓶颈，处理痛点。用的欠好不只会丢失它一切的优点，还要搭上过多的存储，甚至会丧失掉最重要的准确性，所以要针对不同事务场景灵敏运用咱们的武器，才干事半功倍！

下面举例bitmap的一些运用场景，来看看实践开发中，究竟怎么正确运用bitmap：

BitMap在用户分群的运用

假设有用户的标签宽表，对应字段及值如下

user_id(用户id)	city_id(城市id)	is_user_start(是否发动)	is_evl(是否评价)	is_order(是否下单)
1	1001	1	1	1
2	1001	1	1	0
3	1002	1	1	1
4	1002	1	0	0
5	1003	0	0	0

假如想根据标签区分人群，比方：1001城市 + 下单。

传统处理方案

一般是对列值进行遍历筛选，假如优化也便是列上建立索引，可是当这张表有许多标签列时，假如要索引收效并不是每列有索引就行，要每种查询组合建一个索引才干收效，索引数量相当于标签列排列组合的个数，当标签列有1、2 k 的时分，这根本便是不或许的。一般的做法是在数仓提前将热点的组合聚合过滤成新字段，或许只对热点组合加索引，但这样都很不灵敏。

运用BitMap的方案

经过选用bitmap的方法，按字段重组成Bitmap。

标签	标签值	bitmap字段底层二进制结构
city_id(城市id)	1001	00000110
city_id(城市id)	1002	00011000
city_id(城市id)	1003	00100000
is_user_start(是否发动)	1	00011110
is_user_start(是否发动)	0	00100000
is_evl(是否评价)	1	00001110
is_evl(是否评价)	0	00110000
is_order(是否下单)	1	00001010
is_order(是否下单)	0	00110100

把数据调整成这样的结构，再进行条件组合,那就简略了。比方: 1001城市 + 下单 = Bitmap[00000110] & Bitmap[00001010]= 1 ，这个核算速度比较宽表条件筛选是快许多的，假如数据是比较稠密的，bitmap能够极大的节约底层存储，假如数据比较稀少，能够选用RoaringBitmap来优化。

BitMap在A/B试验渠道事务的运用

在支撑货拉拉A/B试验渠道事务的场景中，会有一个试验对应许多司机的状况，因为要在数仓处理成明细宽表，来支撑OLAP引擎的运用，跟着维度的增多，数据发散的状况变得很严重，数仓及OLAP的存储与核算资源都消耗巨大。为了处理这个痛点，在架构组同事主张下，引入了BitMap，将组装好的司机id数组转换成RoaringBitmap格式，再传入到OLAP引擎里边运用。

在数仓运用层，因为引入了BitMap，重构了原本的数据表结构及链路，并优化了数仓的分层。不只让整个链路耗时缩短了2个多小时，还节约了后续往OLAP引擎导数的时刻，再算上数仓层的核算与存储资源的节约，很完美的完成了降本增效！而在OLAP引擎层，由架构组的同事经过二次开发，支撑了Bitmap的运用，也取得了很不错的效果。

详细的落地与运用则在下篇文章给我们详细分享。

结语

本文首要经过关于BitMap的简略完成以及关于Java中BitSet源码的剖析，提高读者关于其底层原理的了解，然后剖析了BitMap的特色，并针对其存储优化的方案，讲解了RoaringBitmap技能的原理，最后列举了关于BitMap的常见运用场景。期望我们读后都能有所收成。

笔者介绍：黄雪超｜高级数据仓库工程师。现任职于货拉拉数据财物组，首要负责用户、营销以及AB域的数仓构建，对数仓架构设计、落地、调优以及管理有丰厚实战经历。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

货拉拉大数据对BitMap的探索与实践上

引言

关于Bitmap

What

BitMap的简略完成

BitSet源码了解

补白信息

中心片段了解

Why

BitMap的特色

BitMap的优化

RoaringBitmap的中心原理

how

BitMap在用户分群的运用

传统处理方案

运用BitMap的方案

BitMap在A/B试验渠道事务的运用

结语

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

货拉拉大数据对BitMap的探索与实践上

引言

关于Bitmap

What

BitMap的简略完成

BitSet源码了解

补白信息

中心片段了解

Why

BitMap的特色

BitMap的优化

RoaringBitmap的中心原理

how

BitMap在用户分群的运用

传统处理方案

运用BitMap的方案

BitMap在A/B试验渠道事务的运用

结语

评论(0)

提示：请文明发言 取消回复

近期文章

近期评论

提示：请文明发言取消回复