HashMap

    HashMap是Map的一个实现类,这个类很重要,是很多集合类的实现基础,底层用的就是他,比如前文中讲到的HashSet,下文要讲到的LinkedHashMap。我们可以将HashMap看成是一个小型的数字字典,他以key-value的方式保存数据,Key全局唯一,并且key和value都允许为null。

    HashMap底层是通过维护一个数据来保存元素。当创建HashMap实例的时候,会通过指定的数组大小以及负载因子等参数创建一个空的数组,当在容器中添加元素的时候,首先会通过hash算法求得key的hash值,再根据hash值确定元素在数组中对应的位置,最后将元素放入数组对应的位置。在添加元素的过程中会出现hash冲突问题,冲突处理的方法就是判断key值是否相同,如果相同则表明是同一个元素,替换value值。如果key值不同,则把当前元素添加到链表尾部。这里引出了一个概念,就是HashMap的数据结构其实是:hash表+单向链表。通过链表的方式把所有冲突元素放在了数组的同一个位置。但是当链表过长的时候会影响HashMap的存取效率。因此我们在实际使用HashMap的时候就需要考虑到这个问题,那么该如何控制hash冲突的出现频率呢?HashMap中有一个负载因子(loadFactor)的概念。容器中实际存储元素的size = loadFactor * 数组长度,一旦容器元素超出了这个size,HashMap就会自动扩容,并对所有元素重新执行hash操作,调整位置。好了说了这么多,下面就开始介绍源码实现。

    一、Node结构介绍

    Node类实现了Map.Entry接口,他是用于存放数据的实体,是容器中存放数据的最小单元。Node的数据结构是一个单向链表,为什么选用这种结构?那是因前文讲到的,HashMap存放数据的结构是:hash表+单向链表。下面给出定义Node的源码:

    创建HashMap实例有四个构造方法,这里着重介绍一个,看源码:

    1. if (initialCapacity < 0)
    2. throw new IllegalArgumentException("Illegal initial capacity: " +
    3. initialCapacity);
    4. if (initialCapacity > MAXIMUM_CAPACITY)
    5. initialCapacity = MAXIMUM_CAPACITY;
    6. if (loadFactor <= 0 || Float.isNaN(loadFactor))
    7. throw new IllegalArgumentException("Illegal load factor: " +
    8. loadFactor);
    9. this.loadFactor = loadFactor;
    10. this.threshold = tableSizeFor(initialCapacity);
    11. }
    12. // HashMap的数组大小是有讲究的,他必须是2的幂,这里通过一个牛逼哄哄的位运算算法,找到大于或等于initialCapacity的最小的2的幂
    13. static final int tableSizeFor(int cap) {
    14. int n = cap - 1;
    15. n |= n >>> 1;
    16. n |= n >>> 2;
    17. n |= n >>> 4;
    18. n |= n >>> 8;
    19. n |= n >>> 16;
    20. return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    21. }

    构造方法中有两个参数,第一个initialCapacity定义map的数组大小,第二个loadFactor意为负载因子,他的作用就是当容器中存储的数据达到loadFactor限度以后,就开始扩容。如果不设定这样参数的话,loadFactor就等于默认值0.75。但是细心的你会发现,容器创建以后,并没有创建数组,原来table是在第一次被使用的时候才创建的,而这个时候threshold = initialCapacity * loadFactor。 这才是这个容器的真正的负载能力。
    tableSizeFor这个方法的目的是找到大于或等于initialCapacity的最小的2的幂,这个算法写的非常妙,值得我们细细品味。
    假设cap=7
    第一步 n = cap -1 = 6 = 00000110
    第二步 n|= n>>>1:
    n>>>1表示无符号右移1位,那么二进制表示为00000011,此时00000110 | 00000011 = 00000111
    第三步 n|=n>>>2:
    00000111 & 00000001 = 00000111
    第四部 n|=n>>>4:
    00000111 & 00000000 = 00000111
    第五步 n|=n>>>8;
    00000111 & 00000000 = 00000111
    第六步 n|=n>>>16;
    00000111 & 00000000 = 00000111
    最后 n + 1 = 00001000
    其实他的原理很简单,第一步先对cap-1是因为如果cap原本就是一个2的幂,那么最后一步加1,会使得这个值变成原来的两倍,但事实上原来这个cap就是2的幂,就是我们想要的值。接下来后面的几步无符号右移操作是把高位的1补到低位,经过一系列的位运算以后的值必定是000011111…他的低位必定全是1,那么最后一步加1以后,这个值就会成为一个00010000…(2的幂次),这就是通过cap找到2的幂的方法。看到如此简约高效的算法,我服了。

    三、put添加元素

    添加一个元素是所有容器中的标配功能,但是至于添加方式那就各有千秋,Map添加元素的方式是通过put,向容器中存入一个Key-Value对。下面我将详细介绍put的实现过程,这个方法非常重要,吃透了这个方法的实现原理,基本也就能搞懂HashMap是怎么一回事了。

    1. public V get(Object key) {
    2. Node<K,V> e;
    3. return (e = getNode(hash(key), key)) == null ? null : e.value;
    4. }
    5. // 同一个key的hash值是相同的,通过hash就可以求出数组的下标,便可以在O(1)的时间内获取元素。
    6. final Node<K,V> getNode(int hash, Object key) {
    7. Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    8. // 在容器不为空,并且对应位置也存在元素的情况下,那么就要遍历链表,找到相同key值的元素。
    9. if ((tab = table) != null && (n = tab.length) > 0 &&
    10. (first = tab[(n - 1) & hash]) != null) {
    11. // 如果第一个元素的key值相同,那么这个元素就是我们要找的。
    12. if (first.hash == hash &&
    13. ((k = first.key) == key || (key != null && key.equals(k))))
    14. return first;
    15. // 如果第一个元素不是我们要找的,接下来就遍历链表元素,如果遍历完了以后都没找到,说明不存在这个key值
    16. if ((e = first.next) != null) {
    17. if (first instanceof TreeNode)
    18. return ((TreeNode<K,V>)first).getTreeNode(hash, key);
    19. if (e.hash == hash &&
    20. ((k = e.key) == key || (key != null && key.equals(k))))
    21. return e;
    22. } while ((e = e.next) != null);
    23. }
    24. return null;
    25. }

    五、remove删除元素

    删除元素的实现原理和put,get都类似。remove通过给定的key值,找到在hash表中对应的位置,然后找出相同key值的元素,对其删除。

    resize这个方法非常重要,他在添加元素的时候就会被调用到。resize的目的是在容器的容量达到上限的时候,对其扩容,使得元素可以继续被添加进来。这里需要关注两个参数threshold和loadFactor,threshold表示容量的上限,当容器中元素数量大于threshold的时候,就要扩容,并且每次扩容都是原来的两倍。loadFactor表示hash表的数组大小。这两个参数的配合使用可以有效的控制hash冲突数量。

    1. final Node<K,V>[] resize() {
    2. Node<K,V>[] oldTab = table;
    3. int oldCap = (oldTab == null) ? 0 : oldTab.length;
    4. int oldThr = threshold;
    5. int newCap, newThr = 0;
    6. // 如果容器并不是第一次扩容的话,那么oldCap必定会大于0
    7. if (oldCap > 0) {
    8. if (oldCap >= MAXIMUM_CAPACITY) {
    9. threshold = Integer.MAX_VALUE;
    10. return oldTab;
    11. }
    12. // threshold和数组大小cap共同扩大为原来的两倍
    13. else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
    14. oldCap >= DEFAULT_INITIAL_CAPACITY)
    15. newThr = oldThr << 1;
    16. }
    17. // 第一次扩容,并且设定了threshold值。
    18. else if (oldThr > 0)
    19. newCap = oldThr;
    20. else {
    21. // 如果在创建的时候并没有设置threshold值,那就用默认值
    22. newCap = DEFAULT_INITIAL_CAPACITY;
    23. newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    24. }
    25. if (newThr == 0) {
    26. // 第一次扩容的时候threshold = cap * loadFactor
    27. float ft = (float)newCap * loadFactor;
    28. newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
    29. (int)ft : Integer.MAX_VALUE);
    30. }
    31. threshold = newThr;
    32. // 创建数组
    33. @SuppressWarnings({"rawtypes","unchecked"})
    34. Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    35. table = newTab;
    36. // 如果不是第一次扩容,那么hash表中必然存在数据,需要将这些数据重新hash
    37. if (oldTab != null) {
    38. // 遍历所有元素
    39. for (int j = 0; j < oldCap; ++j) {
    40. Node<K,V> e;
    41. if ((e = oldTab[j]) != null) {
    42. oldTab[j] = null;
    43. // 重新计算在数组中的位置。
    44. newTab[e.hash & (newCap - 1)] = e;
    45. ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
    46. else { // preserve order
    47. // 这里分两串,lo表示原先位置的所有,hi表示新的索引
    48. Node<K,V> loHead = null, loTail = null;
    49. Node<K,V> hiHead = null, hiTail = null;
    50. Node<K,V> next;
    51. do {
    52. next = e.next;
    53. // 因为cap都是2的幂次,假设oldCap == 10000,
    54. // 假设e.hash= 01010 那么 e.hash & oldCap == 0。
    55. // 老位置= e.hash & oldCap-1 = 01010 & 01111 = 01010
    56. // newCap此时为100000,newCap-1=011111。
    57. // 此时e.hash & newCap 任然等于01010,位置不变。
    58. // 如果e.hash 假设为11010,那么 e.hash & oldCap != 0
    59. // 原来的位置为 e.hash & oldCap-1 = 01010
    60. // 新位置 e.hash & newCap-1 = 11010 & 011111 = 11010
    61. // 此时 新位置 != 老位置 新位置=老位置+oldCap
    62. // 因此这里分类两个索引的链表
    63. if ((e.hash & oldCap) == 0) {
    64. if (loTail == null)
    65. loHead = e;
    66. else
    67. loTail.next = e;
    68. loTail = e;
    69. }
    70. else {
    71. if (hiTail == null)
    72. hiHead = e;
    73. else
    74. hiTail.next = e;
    75. hiTail = e;
    76. }
    77. } while ((e = next) != null);
    78. if (loTail != null) {
    79. loTail.next = null;
    80. newTab[j] = loHead;
    81. }
    82. if (hiTail != null) {
    83. hiTail.next = null;
    84. newTab[j + oldCap] = hiHead;
    85. }
    86. }
    87. }
    88. }
    89. }
    90. return newTab;
    91. }

    七、遍历

    HashMap遍历有三种方式,一种是对key遍历,还有一种是对entry遍历和对value遍历。这三种遍历方式都是基于对HashIterator的封装,三种实现方式大同小异,因此我着重介绍EntryIterator的实现。