HashMap深度剖析

携手创作，共同成长！这是我参加「日新方案 8 月更文应战」的第33天，点击检查活动概况

概述

HashMap作为Java程序员运用频率十分高的容器，一起，一起也是面试官十分爱问的，里边的知识点满满，需求咱们对它的完成机制有个深入的了解，本文主要经过jdk8带领我们分析下HashMap。

HashMap简介

HashMap 最早出现在 JDK 1.2中，底层依据散列算法完成，它是一个key-value结构的容器。

是一个key-value的映射容器，key不重复
jdk8中的HashMap依据数组+链表+红黑树完成
不保证键值的次序
能够存入null值
非线程安全，多线程环境下或许存在问题

以上是HashMap的类结构图：

继承了AbstractMap,完成了Map接口，供给了key,value结构格式拜访的办法
完成了Cloneable接口，表明HashMap支撑clone
完成了Serializable接口，表明HashMap支撑序列化

中心机制

底层完成机制

jdk8中的HashMap底层数据才有数组+链表+红黑树的办法完成。

扩容机制

HashMap底层是一个数组，Java中的数组是固定的，随着咱们往HashMap中增加元素，发现数组长度不够了，这时分就需求进行扩冲容量的操作，和扩容相关的参数有两个一个是初始容量 initialCapacity，另一个负载因子 loadFactor。经过这两个设定这两个参数，能够进一步影响阈值巨细。扩容的阈值threshold等于容量*负载因子（threshold = capacity * loadFactor）。

名称	用途
initialCapacity	HashMap 初始容量
loadFactor	负载因子
threshold	当时 HashMap 所能容纳键值对数量的最大值，超越这个值，则需扩容

快速失利机制

HashMap 遍历运用的是一种快速失利机制，它是 Java 非安全集合中的一种遍及机制，这种机制能够让集合在遍历时，假如有线程对集合进行了修正、删去、增加操作，会触发并发修正反常。

它的完成机制是在遍历前保存一份 modCount ，在每次获取下一个要遍历的元素时会比照当时的 modCount 和保存的 modCount 是否持平。

快速失利也能够看作是一种安全机制，这样在多线程操作不安全的集合时，因为快速失利的机制，会抛出反常。这样能够防止因为并发修正导致一些不知道的问题，经过提前失利进步性能。

源码分析

成员变量

成员变量能够阐明HashMap的底层数据结构。

    // 底层存储的数据结构，是一个Node数组
    transient Node<K,V>[] table;
    // 遍历用到的entrySet
    transient Set<Map.Entry<K,V>> entrySet;
    // hashmap的元素数量
    transient int size;
    // 修正次数， 用于快速失利机制
    transient int modCount;
   // 发生扩容的阈值 
    int threshold;
    /**
     * 扩容运用的负载因子
     *
     * @serial
     */
    final float loadFactor;

咱们再来看下Node的数据结构，完成了Map.Entry接口。

很明显是一个链表的结构，红黑树也是依据这个数据结构构建得到。

结构办法

有参结构函数源码如下，关键是tableSizeFor这个办法

public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        //依据tableSizeFor获取扩容阈值
        this.threshold = tableSizeFor(initialCapacity);
    }

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

该办法的作用总结起来就一句话：找到大于或等于 cap 的最小2的幂。至于为啥要这样，后边再解说。咱们先来看看 tableSizeFor 办法的图解：

能够了解为把cap低位的二进制位经过右移全部变为1，最后再+1，就是2的幂次方了。

此时这儿的阈值threshold不是初始容量*负载因子，不必介意，这仅仅暂时的，真正设置threshold在后边put办法中。

put办法

其实整个向map中刺进数据的流程，我们多少都应知道一些，整个流程如上图所示，咱们现在经过源码解读了解这个进程中的细节。

put办法

// 对外暴露的接口，增加的入口
public V put(K key, V value) {
    // 中心是调用putVal办法， 参数的hash办法是核算key的hash值
    return putVal(hash(key), key, value, false, true);
}

hash办法

static final int hash(Object key) {
        int h;
        // 采用位运算获取最终的hash
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

这段代码叫做扰动函数，也是hashMap中的hash运算，主要分为下面几步：

key.hashCode()获取key的hashCode值，假如不进行重写的话回来的是依据内存地址得到的一个int值。
key.hashCode() 获取到的hashCode无符号右移16位并和原hashCode进行^ ，这样做的目的是为了让高位与低进行混合，让两者都参加运算，以便让hash值散布更加均匀。

putVal办法

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        // 假如数组为空，进行 resize() 初始化,后边详细分析resize办法
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        // (n - 1) & hash相当于取模，获取数组的索引方位
        // 假如核算的方位上Node不存在，直接创立节点刺进
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            // 假如核算的方位上Node 存在，链表或许红黑树处理
            Node<K,V> e; K k;
            // 假如已存在的key和传入的key如出一辙，则需求覆盖
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            // 假如 index 方位元素现已存在，且是红黑树    
            else if (p instanceof TreeNode)
                // 将元素刺进到红黑树中
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                // 不然假如是链表的情况，对链表进行遍历，并统计链表长度
                for (int binCount = 0; ; ++binCount) {
                    // 假如节点链表的next为空
                    if ((e = p.next) == null) {
                         // 找到节点链表中next为空的节点，创立新的节点刺进
                        p.next = newNode(hash, key, value, null);
                           // 假如节点链表中数量超越TREEIFY_THRESHOLD（8）个，转化为红黑树
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            // 树化操作
                            treeifyBin(tab, hash);
                        break;
                    }
                    // 判别节点链表中的key和传入的key是否相同
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        // 假如相同的话，退出
                        break;
                    p = e;
                }
            }
            // 假如存在相同key的节点e不为空
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                  // onlyIfAbsent 表明是否仅在 oldValue 为 null 的情况下更新键值对的值
                if (!onlyIfAbsent || oldValue == null)
                    // 设置新的值
                    e.value = value;
                afterNodeAccess(e);
                // 回来老的成果
                return oldValue;
            }
        }
        ++modCount;
       // 当时巨细大于临界巨细，扩容
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

putVal 办法主要做了这么几件事情：

当桶数组 table 为空时，经过扩容的办法初始化 table。
查找要刺进的键值对是否现已存在，存在的话依据条件判别是否用新值替换旧值。
假如不存在，则将键值对链入链表中，并依据链表长度决议是否将链表转为红黑树。
判别键值对数量是否大于阈值，大于的话则进行扩容操作。

resize()办法

当 HashMap 中的键值对数量超越扩容阈值时，则进行扩容，先阐述清楚几个概念：

容量：表明HashMap中数组的长度
扩容阈值：表明HashMap中数组有值的数量超越这个阈值，则需求进行扩容处理，扩容阈值等于容量 * 负载因子。

 final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        // 现有容量的巨细，等于数组的长度，假如数组为空，回来0
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        // 现有的扩容阈值
        int oldThr = threshold;
        // newCap表明新的容量，newThr新的扩容阈值
        int newCap, newThr = 0;
        // 假如现有容量大于0，表明现已初始化过了
        if (oldCap > 0) {
            // 假如现有容量现已大于最大容量。结束扩容，直接回来
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
             // 不然，假如扩展两倍之后的容量小于最大容量，且现有容量大于等于初始容量16    
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                 // 新的扩容阀值扩展为两倍，左移<<1 相当于乘以2
                newThr = oldThr << 1; // double threshold
        }
        // 不然假如当时容量等于0 ，但是当时扩容阈值 > 0,调用有参结构函数会到这儿
        else if (oldThr > 0) // initial capacity was placed in threshold
             // 进入这儿，新的容量等于当时的扩容阈值，
            newCap = oldThr;
        // 不然假如当时容量等于0,而且挡墙扩容阈值=0，调用无参结构函数进入这儿
        else {               
            // 新的容量等于默许容量
            newCap = DEFAULT_INITIAL_CAPACITY;
            // 新的扩容阈值等于默许负载因子0.75*默许容量16=12
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        // 假如新的扩容阈值等于0
        if (newThr == 0) {
            // 设置新的扩容阈值等于新的容量*负载因子
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
       // 设置hashmap对象的扩容阈值位新的扩容阈值
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        // 初始化数组     
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        // 设置hashmap对象的桶数组为newTab
        table = newTab;
        // 下面时rehash的进程
         // 假如旧的桶数组不为空，则遍历桶数组，并将键值对映射到新的桶数组中
        if (oldTab != null) {
            // 遍历老的数组
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                // 假如数组索引方位不为空
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    // 假如节点下面没有链表或许红黑树
                    if (e.next == null)
                        // 用新数组容量取模，设置到新数组中
                        newTab[e.hash & (newCap - 1)] = e;
                    // 假如节点是红黑树    
                    else if (e instanceof TreeNode)
                        // 需求对红黑树进行拆分
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    // 假如节点是红黑树 
                    else { // preserve order
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                         // 遍历链表，并将链表节点按原次序依据高低位分组
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                         // 将分组后的链表映射到新桶中
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

这个resize办法大致做了如下的事情：

核算新桶数组的容量 newCap 和新阈值 newThr。
依据核算出的 newCap 创立新的桶数组，桶数组 table 也是在这儿进行初始化的。
将键值对节点重新映射到新的桶数组里。假如节点是 TreeNode 类型，则需求拆分红黑树。假如是一般链表节点，则节点按原次序进行分组。

这边在将链表节点进行rehash用了一个十分好的规划理念，扩容后长度为原hash表的2倍，于是把hash表分为两半，分为低位和高位，假如能把原链表的键值对，一半放在低位，一半放在高位，而且是经过e.hash & oldCap == 0来判别，这个判别有什么长处呢？

举个比如：n = 16，二进制为10000，第5位为1，e.hash & oldCap 是否等于0就取决于e.hash第5 位是0还是1，这就相当于有50%的概率放在新hash表低位，50%的概率放在新hash表高位。

链表树化treeifyBin

jdk8中会将节点链表在必定的条件下转换成红黑树，主要是因为红黑树的搜索查询性能更好，会将时间复杂度从O（n）变成O(logn)，代码如下

/**
 * 将一般节点链表转换成树形节点链表
 */
final void treeifyBin(Node<K,V>[] tab, int hash) {
    int n, index; Node<K,V> e;
    // 桶数组容量小于 MIN_TREEIFY_CAPACITY，优先进行扩容而不是树化
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        resize();
    else if ((e = tab[index = (n - 1) & hash]) != null) {
        // hd 为头节点（head），tl 为尾节点（tail）
        TreeNode<K,V> hd = null, tl = null;
        do {
            // 将一般节点替换成树形节点
            TreeNode<K,V> p = replacementTreeNode(e, null);
            if (tl == null)
                hd = p;
            else {
                p.prev = tl;
                tl.next = p;
            }
            tl = p;
        } while ((e = e.next) != null);  // 将一般链表转成由树形节点链表
        if ((tab[index] = hd) != null)
            // 将树形链表转换成红黑树
            hd.treeify(tab);
    }
}

依据代码得出，在扩容进程中，树化要满意两个条件：

链表长度大于等于 8
桶数组容量大于等于64，当桶数组容量比较小时，键值对节点 hash 的磕碰率或许会比较高，进而导致链表长度较长。这个时分应该优先扩容，而不是立马树化。

get办法

get办法相对来说就简略许多了，源码如下：

public V get(Object key) {
        Node<K,V> e;
        // 调用getNode办法，hash(key)办法上面讲过，获取key对应的hash值
        return (e = getNode(hash(key), key)) == null ? null : e.value;
    }

final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        // 定位键值对所在桶的方位
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
            //依据hash算法找到对应方位的第一个数据，假如是指定的key，则直接回来
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
            if ((e = first.next) != null) {
                //假如该节点为红黑树，则经过树进行查找
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                //假如该节点是链表，则遍历查找到数据
                do {
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        return null;
    }

大致逻辑如下：

依据hash值查找到指定方位的数据。
校验指定方位第一个节点的数据是key是否为传入的key，假如是直接回来第一个节点，不然持续查找第二个节点。
假如数据是TreeNode（红黑树结构），直接经过红黑树查找节点数据并回来。
假如是链表结构，循环查找所有节点，回来数据。
假如没有找到符合要求的节点，回来null。

这儿前调用下经过(n - 1)& hash相当于取模运算，即可算出桶的在桶数组中的方位, 这是什么道理呢？

举个比如阐明吧，假设 hash = 185，n = 16。核算进程示意图如下：

1001换成10进制就是9, 185%16=5, 这个前提成立时n有必要是2的幂次方。

总结

本篇文章大致讲解了HashMap的源码和以及中心机制，其中里边还有许多细节和内容，需求我们花时间去自我学习。

参阅

www.cnblogs.com/ysocean/p/9…

segmentfault.com/a/119000001…

www.cnblogs.com/niumoo/p/12…

segmentfault.com/a/119000001…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

HashMap深度剖析

概述

HashMap简介

中心机制

底层完成机制

扩容机制

快速失利机制

源码分析

成员变量

结构办法

put办法

get办法

总结

参阅

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

HashMap深度剖析

概述

HashMap简介

中心机制

底层完成机制

扩容机制

快速失利机制

源码分析

成员变量

结构办法

put办法

get办法

总结

参阅

评论(0)

提示：请文明发言 取消回复

近期文章

近期评论

提示：请文明发言取消回复