HashMap,用的再多不过的东西了,面试中也经常问到,但是总是会答不出来一个所以然,回答的都太表面,要么就表达不清楚。俗话说,表达不清或者不能够让别人听懂就是自己没有搞懂。所以我要好好整理一下HashMap了。
这篇文章以JDK1.8为基础,因为JDK1.8里面引入了红黑树,真的很有意思,如果要了解红黑树,可以去看看我写的一片文章,关于红黑树的。读懂了后再来分析HashMap会了解许多。首先对于分析任何一个源码,掌握其数据结构是最基本,也是分析源码最重要的,这是精华OK?那么HashMap的精华就是数组+链表+红黑树。
看到没有,HashMap的数据结构就是上面这个样子。它的最左边也就是它所实现的“hash”,是一个数组,这样访问某一个bucket可以达到O(1)的复杂度。右边分别对应着链表和红黑树,插入删除都非常方便,访问也非常快速。而在源码里面实际的数据结构这样子:
HashMap中的经典类变量
transient Node<K,V>[] table;
这个就是用来存储实际数据的,每个节点是一个Node的数据结构或者说对象吧,看你怎么理解,它只有在初次使用的时候才初始化,注意构造方法不会初始化它。而且他是一个数组,会根据需要来扩容,长度永远是2的幂。
//这个值构造方法里也没有参数指定,因为它是直接由Capacity*loadFractor,当元素个数达到这个值就要进行扩容
//决定的所以我们不需要指定。
int threshold;
//这个就是负载因子,由构造方法指定,不然就是默认值0.75f
final float loadFactor;
关于这个threshold=capacity*loadFactor,一般情况下,我们使用默认值就可以了,capacity每次扩容就会变化,但是loadFactor不会变化,一般你在创建的时候就要指定,要么就是用默认值。但是,许多的不同使用场景应该好好调节这个参数大小。
当你的空间使用的比较紧张而对时间效率要求不是很高时,可以将LoadFactor的值调大些,这样元素个数就会接近负载才会扩容
但是如果你的空间充足而且时间效率要求很高的话,可以调小,很早就扩容。
transient int size;
很显然,当前HashMap存储的Key-Value的个数
transient int modCount;
这个可以用来快速失败,用于多线程修改的时候抛出异常,可见HashMap并不是线程安全的,一旦某个线程修改了,却发现modCount的值和之前读到的值不一样,就会直接抛出异常。
实际的Node节点
//很显然,一个静态内部类,在HashMap里面,实现了Map的Entry接口。
static class Node<K,V> implements Map.Entry<K,V> {
//hash值,这里是对数组长度取余之后的值
final int hash;
//键的大小
final K key;
//值的大小
V value;
//指向下一个节点
Node<K,V> next;
//Node的构造方法
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
//这两个方法不要说了
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
//充血hashCode方法了,对应equal是也要重写,为什么重写在最后交代了。
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
//设置值
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
//判断两个对象是不是一样的,如果都是Node对象,会直接根据hashCode1方法判断,如果是Entry的实现,那么就比较键值
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
构造方法
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
HashMap的构造方法有4个,我们常用的就是第三个,空参构造方法,对吧,其他的,像第一个和第二个构造方法传入了容量Capacity和负载因子LoadFactor,等会儿再解释这两个参数是啥。而像第四个传入了Map类型的变量,应该是将Map中的元素弄到HashMap里来吧。
而且哦,👆上面的前三个的构造方法又一个统一的特点,就是都没有创建真正的table空间,那么只有在put的实现方法中才去创建了真正的存储数值空间,你看第四个构造方法,他其实就是通过putMapEntries去创建了真正的存储空间。
阙值,负载因子,容量
他们的默认值
//HashMap的默认初始容量,为16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
//HashMap的最大容量,一般不会达到这么大,平常使用够了
static final int MAXIMUM_CAPACITY = 1 << 30;
//HashMap的默认的负载因子大小
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//当某一个bucket桶的链表节点数量大于这个数值就会转成红黑树
static final int TREEIFY_THRESHOLD = 8;
//当某一个bucket桶的红黑树节点个数小于这个数值就会还原成链表
static final int UNTREEIFY_THRESHOLD = 6;
//HashMap中转为红黑树的最小容量大小,一般至少是TREEIFY_THRESHOLD的4倍。这样就避免了和它的冲突。容量达到这个值就会转成红黑树
static final int MIN_TREEIFY_CAPACITY = 64;
说的那么多好像说的那么爽,结果没有一个重点讲得上。但是前面已经将这几个东西给讲过了。先看看为什么数组长度一定为2次幂
我们为什么要设置负载因子,最大容量,为了就是当达到阙值时,要对数组进行扩容,以此就能够减少Hash冲突,这样就能够使数据分布的均匀,查询效率就会越来越高。
而设置成2次幂就有很大方便性。我们一般来说扩容都会直接*2,还有扩容之后要进行移动元素,都是直接使用%操作,然后搬动元素。但是一旦设置成2次幂,我们可以直接使用位操作,要知道位操作可是比所谓的乘法要方便很多,在操作系统里面位操作可以直接执行,而乘法还需要转变成二进制才能计算,可见使用位操作可以加快计算速度。最后再来总结一下,有几个地方都会看到
resize
下面这个方法,非常重要,用于初始化table或者将table扩容
final Node<K,V>[] resize() {
//先讲原来的table保存到oldtab,特别注意,这里有个非常容易弄错的地方。我们常说如果对象这样赋值的话
//引用的是同一块内存,所以你修改了talbe,oldTab就没有意义了。
//但是兄弟,这里是数组
Node<K,V>[] oldTab = table;
//保存原来的容量
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//保存原来的阙值
int oldThr = threshold;
//声明新的容量和阙值
int newCap, newThr = 0;
//oldCap大于0,说明table已经初始化过了
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
//这里如果容量已经达到了最大值,直接将阙值弄到整型最大,从而再也不让他扩容
threshold = Integer.MAX_VALUE;
return oldTab;
}
//否则:看这里,是直接使用左移位操作来达到*2的,因为之前说了capacity一定是2次幂,相应的阙值应该也要*2
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // 直接将容量初始化为阙值
newCap = oldThr;
else {
// 否则全部初始化为默认的
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//总之上面的过程就是调整capacity和threshold
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
//新建一个Node对象数组,并且付给newTab
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;//变为null后,等到这个过程结束了,就会被垃圾回收
if (e.next == null)
//这里非常重要,就是直接用与&操作来hash从而找到对应新数组的索引
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
//是一个树节点要另外操作
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // 如果是链表
Node<K,V> loHead = null, loTail = null;//这个链表还保存在原地
Node<K,V> hiHead = null, hiTail = null;//这个链表是hash到扩容的位置去的。
Node<K,V> next;
do {
next = e.next;
//如果hash后还保存在数组的原来位置
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
// 说明hash到别的地方去了
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
上面整个过程就是将数组扩容,然后对下面的元素进行扩容。⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️⭐️重点
newTab[e.hash & (newCap - 1)] = e;
e.hash & oldCap) == 0
这两个地方提取出来重点看一下,看到底是怎么利用二进制操作的
假设oldCap=16,newCap=oldCap*2=32
那么对于原来的数组就有:0-15,新的数组就有0-32
那么如果对于原来的某几个节点假设他们的hash值分别是1,17,33,注意这里不是索引也不是数组的值,是这个节点的hash值,那么对于原来的数组来说利用hash&(oldCap-1)将元素放入几个位置
oldCap-1=15=0111 1111 1111 1111(二进制)
1: 0001 17: 1 0001 33:10 0001
15: 1111 15: 0 1111 15: 00 1111
= 0001 = 0 0001 = 00 0001
看上面所有的hash全部hash到1,所以就放在数组索引1的位置,然后一个个添加形成链表,今儿变成红黑树
但是扩容后
newCap = 32 = 10 0000
newCap-1=31 = 01 1111
oldCap = 16 == 01 0000
这样对于
1: 00 0001 17: 01 0001 33: 10 0001
16: 01 0000 16: 01 0000 16: 01 0000
== 00 0000 =:01 0000 ==:00 0000
这样可以看出凡事&操作等于0的鄙夫1,33都保留在原来的位置,而17hash之后不等于0就扩容到1+16=17的位置了
tableSizeFor:找到大于或等于cap的最小二次幂
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
###### 看这个图就知道,这个方法也是利用二进制操作,这里是或操作,使其达到找到大于或者等于cap的最小二次幂
HashMap怎么放入元素的:put方法
public void putAll(Map<? extends K, ? extends V> m) {
putMapEntries(m, true);
}
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
看清上面两个put方法,其中put(key,value)是我们常用的,但是它是调用了pubVal方法,而pubAll相当于放入一个大集合的元素,调用了pubMapEntries,那我们先来看看putMapEntries
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
//获取带插入集合的元素个数
int s = m.size();
//要保证元素个数大于0,不然还放个屁元素
if (s > 0) {
//如果HashMap的元素还没有初始化,之前说过了,在构造方法了里面是不会实例化的
if (table == null) { // pre-size
//这里注意!!!:我们平常是通过capacity*loadFactor得到threshold
//然后看s有没有超过threshold,如果超过了,就要扩容,否则就不用扩容。
//然而这里先用s/loadFactor,得到的是当元素大小是s的时候,不让扩容的话,capacity的所需容量ft至少是多少,然后去比较这个至少容量是不是已经比threshold大了。
float ft = ((float)s / loadFactor) + 1.0F;
//容量ft不能超过最大值
int t = ((ft < (float)MAXIMUM_CAPACITY) ?
(int)ft : MAXIMUM_CAPACITY);
//这里按常规比较应该是比较s与threshold,然而现在却拿总容量t(capacity)来比,待会儿再看
if (t > threshold)
//这个方法是找到大于或者等于t的最小2次幂,用于扩容
threshold = tableSizeFor(t);
}
else if (s > threshold)
//如果里面有元素,且元素个数大于threshold,那就要resize
resize();
for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
K key = e.getKey();
V value = e.getValue();
//**************最终还是调用这个放入元素
putVal(hash(key), key, value, false, evict);
}
}
}
那么其实真正放入元素的方法是putVal!!!!!!!
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab;
Node<K,V> p;
int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
//如果是空或者table大小为0,那么就要resize,重新调整大小。所以为空的话实际上就是通过resize实例化table的
n = (tab = resize()).length;//这里n等于获取了数组的长度,比如16
if ((p = tab[i = (n - 1) & hash]) == null)
//加入n=16,那么对于hash值1就和15做&操作,这样就可以得到i=1。
//如果这个位置为null,说明table数组的这个索引下还没有元素
tab[i] = newNode(hash, key, value, null);
else {
//说明table数组这个索引下有元素
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
//说明这个key已经存在了,就要用新来的替换掉
e = p;
else if (p instanceof TreeNode)
//调用红黑树的插入元素,最后再分析
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);//需要转成红黑树
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { //已经存在这个key了,就要替换掉它。
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
//增加一次修改操作,如果多线程修改有问题,就造成快速失败fast-failure
++modCount;
//如果整个元素个数大于阙值,就要扩容了
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
获取这些元素:get,getNode
//这不要看了,直接调用getNode
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
//
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//直接利用&操作来找到这个元素所在数组的那个索引下,或者说在这个索引的bucket桶下
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//第一个元素是的话
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//第一个元素不是,就要向后找了
if ((e = first.next) != null) {
//分为红黑树和链表形式去找
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
来源:CSDN
作者:混迹零柒叁壹
链接:https://blog.csdn.net/weixin_43272605/article/details/104419842