HashMap
HashMap是Map的一个实现类,这个类很重要,是很多集合类的实现基础,底层用的就是他,比如前文中讲到的HashSet,下文要讲到的LinkedHashMap。我们可以将HashMap看成是一个小型的数字字典,他以key-value的方式保存数据,Key全局唯一,并且key和value都允许为null。
HashMap底层是通过维护一个数据来保存元素。当创建HashMap实例的时候,会通过指定的数组大小以及负载因子等参数创建一个空的数组,当在容器中添加元素的时候,首先会通过hash算法求得key的hash值,再根据hash值确定元素在数组中对应的位置,最后将元素放入数组对应的位置。在添加元素的过程中会出现hash冲突问题,冲突处理的方法就是判断key值是否相同,如果相同则表明是同一个元素,替换value值。如果key值不同,则把当前元素添加到链表尾部。这里引出了一个概念,就是HashMap的数据结构其实是:hash表+单向链表。通过链表的方式把所有冲突元素放在了数组的同一个位置。但是当链表过长的时候会影响HashMap的存取效率。因此我们在实际使用HashMap的时候就需要考虑到这个问题,那么该如何控制hash冲突的出现频率呢?HashMap中有一个负载因子(loadFactor)的概念。容器中实际存储元素的size = loadFactor * 数组长度,一旦容器元素超出了这个size,HashMap就会自动扩容,并对所有元素重新执行hash操作,调整位置。好了说了这么多,下面就开始介绍源码实现。
一、Node结构介绍
Node类实现了Map.Entry接口,他是用于存放数据的实体,是容器中存放数据的最小单元。Node的数据结构是一个单向链表,为什么选用这种结构?那是因前文讲到的,HashMap存放数据的结构是:hash表+单向链表。下面给出定义Node的源码:
创建HashMap实例有四个构造方法,这里着重介绍一个,看源码:
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
// HashMap的数组大小是有讲究的,他必须是2的幂,这里通过一个牛逼哄哄的位运算算法,找到大于或等于initialCapacity的最小的2的幂
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
构造方法中有两个参数,第一个initialCapacity定义map的数组大小,第二个loadFactor意为负载因子,他的作用就是当容器中存储的数据达到loadFactor限度以后,就开始扩容。如果不设定这样参数的话,loadFactor就等于默认值0.75。但是细心的你会发现,容器创建以后,并没有创建数组,原来table是在第一次被使用的时候才创建的,而这个时候threshold = initialCapacity * loadFactor。 这才是这个容器的真正的负载能力。
tableSizeFor这个方法的目的是找到大于或等于initialCapacity的最小的2的幂,这个算法写的非常妙,值得我们细细品味。
假设cap=7
第一步 n = cap -1 = 6 = 00000110
第二步 n|= n>>>1:
n>>>1表示无符号右移1位,那么二进制表示为00000011,此时00000110 | 00000011 = 00000111
第三步 n|=n>>>2:
00000111 & 00000001 = 00000111
第四部 n|=n>>>4:
00000111 & 00000000 = 00000111
第五步 n|=n>>>8;
00000111 & 00000000 = 00000111
第六步 n|=n>>>16;
00000111 & 00000000 = 00000111
最后 n + 1 = 00001000
其实他的原理很简单,第一步先对cap-1是因为如果cap原本就是一个2的幂,那么最后一步加1,会使得这个值变成原来的两倍,但事实上原来这个cap就是2的幂,就是我们想要的值。接下来后面的几步无符号右移操作是把高位的1补到低位,经过一系列的位运算以后的值必定是000011111…他的低位必定全是1,那么最后一步加1以后,这个值就会成为一个00010000…(2的幂次),这就是通过cap找到2的幂的方法。看到如此简约高效的算法,我服了。
三、put添加元素
添加一个元素是所有容器中的标配功能,但是至于添加方式那就各有千秋,Map添加元素的方式是通过put,向容器中存入一个Key-Value对。下面我将详细介绍put的实现过程,这个方法非常重要,吃透了这个方法的实现原理,基本也就能搞懂HashMap是怎么一回事了。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
// 同一个key的hash值是相同的,通过hash就可以求出数组的下标,便可以在O(1)的时间内获取元素。
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
// 在容器不为空,并且对应位置也存在元素的情况下,那么就要遍历链表,找到相同key值的元素。
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
// 如果第一个元素的key值相同,那么这个元素就是我们要找的。
if (first.hash == hash &&
((k = first.key) == key || (key != null && key.equals(k))))
return first;
// 如果第一个元素不是我们要找的,接下来就遍历链表元素,如果遍历完了以后都没找到,说明不存在这个key值
if ((e = first.next) != null) {
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
return null;
}
五、remove删除元素
删除元素的实现原理和put,get都类似。remove通过给定的key值,找到在hash表中对应的位置,然后找出相同key值的元素,对其删除。
resize这个方法非常重要,他在添加元素的时候就会被调用到。resize的目的是在容器的容量达到上限的时候,对其扩容,使得元素可以继续被添加进来。这里需要关注两个参数threshold和loadFactor,threshold表示容量的上限,当容器中元素数量大于threshold的时候,就要扩容,并且每次扩容都是原来的两倍。loadFactor表示hash表的数组大小。这两个参数的配合使用可以有效的控制hash冲突数量。
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
// 如果容器并不是第一次扩容的话,那么oldCap必定会大于0
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
// threshold和数组大小cap共同扩大为原来的两倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1;
}
// 第一次扩容,并且设定了threshold值。
else if (oldThr > 0)
newCap = oldThr;
else {
// 如果在创建的时候并没有设置threshold值,那就用默认值
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
// 第一次扩容的时候threshold = cap * loadFactor
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
// 创建数组
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
// 如果不是第一次扩容,那么hash表中必然存在数据,需要将这些数据重新hash
if (oldTab != null) {
// 遍历所有元素
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
// 重新计算在数组中的位置。
newTab[e.hash & (newCap - 1)] = e;
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
// 这里分两串,lo表示原先位置的所有,hi表示新的索引
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
// 因为cap都是2的幂次,假设oldCap == 10000,
// 假设e.hash= 01010 那么 e.hash & oldCap == 0。
// 老位置= e.hash & oldCap-1 = 01010 & 01111 = 01010
// newCap此时为100000,newCap-1=011111。
// 此时e.hash & newCap 任然等于01010,位置不变。
// 如果e.hash 假设为11010,那么 e.hash & oldCap != 0
// 原来的位置为 e.hash & oldCap-1 = 01010
// 新位置 e.hash & newCap-1 = 11010 & 011111 = 11010
// 此时 新位置 != 老位置 新位置=老位置+oldCap
// 因此这里分类两个索引的链表
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
七、遍历
HashMap遍历有三种方式,一种是对key遍历,还有一种是对entry遍历和对value遍历。这三种遍历方式都是基于对HashIterator的封装,三种实现方式大同小异,因此我着重介绍EntryIterator的实现。