为什么哈希存取比较快？使用它需要付出什么代价

更新时间：2020年6月25日 11:24 点击：1297

　　哈希表和哈希函数是大学数据结构中的课程，实际开发中我们经常用到Hashtable这种结构，当遇到键-值对存储，采用Hashtable比ArrayList查找的性能高。为什么呢？我们在享受高性能的同时，需要付出什么代价(这几天看红顶商人胡雪岩，经典台词：在你享受这之前，必须受别人吃不了的苦，忍受别人受不了的屈辱)，那么使用Hashtable是否就是一桩无本万利的买卖呢？就此疑问，做以下分析，希望能抛砖引玉。

一、hash它为什么对于键-值查找性能高
　　学过数据结构的，都应该晓得，线性表和树中，记录在结构中的相对位置是随机的，记录和关键字之间不存在明确的关系，因此在查找记录的时候，需要进行一系列的关键字比较，这种查找方式建立在比较的基础之上，在.net中(Array,ArrayList,List)这些集合结构采用了上面的存储方式。
比如，现在我们有一个班同学的数据，包括姓名，性别，年龄，学号等。假如数据有

姓名	性别	年龄	学号
张三	男	15	1
李四	女	14	2
王五	男	14	3

假如，我们按照姓名来查找，假设查找函数FindByName(string name);
1)查找“张三”
只需在第一行匹配一次。
2)查找"王五"
　　在第一行匹配，失败，
　　在第二行匹配，失败，
　　在第三行匹配，成功
上面两种情况，分别分析了最好的情况，和最坏的情况，那么平均查找次数应该为 (1+3)/2=2次，即平均查找次数为(记录总数+1)的1/2。
尽管有一些优化的算法，可以使查找排序效率增高，但是复杂度会保持在log2n的范围之内。
如何更更快的进行查找呢？我们所期望的效果是一下子就定位到要找记录的位置之上，这时候时间复杂度为1，查找最快。如果我们事先为每条记录编一个序号，然后让他们按号入位，我们又知道按照什么规则对这些记录进行编号的话，如果我们再次查找某个记录的时候，只需要先通过规则计算出该记录的编号，然后根据编号，在记录的线性队列中，就可以轻易的找到记录了。
注意，上述的描述包含了两个概念，一个是用于对学生进行编号的规则，在数据结构中，称之为哈希函数，另外一个是按照规则为学生排列的顺序结构，称之为哈希表。
仍以上面的学生为例，假设学号就是规则，老师手上有一个规则表，在排座位的时候也按照这个规则来排序，查找李四，首先该教师会根据规则判断出，李四的编号为2，就是在座位中的2号位置，直接走过去，“李四，哈哈，你小子，就是在这！”
看看大体流程:

从上面的图中，可以看出哈希表可以描述为两个筒子，一个筒子用来装记录的位置编号，另外一个筒子用来装记录，另外存在一套规则，用来表述记录与编号之间的联系。这个规则通常是如何制定的呢？

a)直接定址法:
　　我在前一篇文章对GetHashCode()性能比较的问题中谈到，对于整形的数据GetHashCode()函数返回的就是整形　　　本身，其实就是基于直接定址的方法，比如有一组0-100的数据，用来表示人的年龄
那么，采用直接定址的方法构成的哈希表为:

0	1	2	3	4	5
0岁	1岁	2岁	3岁	4岁	5岁

.....
这样的一种定址方式，简单方便，适用于元数据能够用数字表述或者原数据具有鲜明顺序关系的情形。

b)数字分析法:

　　有这样一组数据，用于表述一些人的出生日期

年	月	日
75	10	1
75	12	10
75	02	14

分析一下，年和月的第一位数字基本相同，造成冲突的几率非常大，而后面三位差别比较大，所以采用后三位

c)平方取中法

　　取关键字平方后的中间几位作为哈希地址

d)折叠法：

　　将关键字分割成位数相同的几部分，最后一部分位数可以不相同，然后去这几部分的叠加和（取出进位）作为哈希地址，比如有这样的数据20-1445-4547-3
可以
        5473
+      4454
+        201
=    10128
取出进位1,取0128为哈希地址

e)取余法

　　取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。H(key)=key MOD p (p<=m)

f)随机数法

　　选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key)=random(key) ,其中random为随机函数。通常用于关键字长度不等时采用此法。

总之，哈希函数的规则是：通过某种转换关系，使关键字适度的分散到指定大小的的顺序结构中。越分散，则以后查找的时间复杂度越小，空间复杂度越高。

二、使用hash，我们付出了什么？

　　hash是一种典型以空间换时间的算法，比如原来一个长度为100的数组，对其查找，只需要遍历且匹配相应记录即可，从空间复杂度上来看，假如数组存储的是byte类型数据，那么该数组占用100byte空间。现在我们采用hash算法，我们前面说的hash必须有一个规则，约束键与存储位置的关系，那么就需要一个固定长度的hash表，此时，仍然是100byte的数组，假设我们需要的100byte用来记录键与位置的关系，那么总的空间为200byte,而且用于记录规则的表大小会根据规则，大小可能是不定的，比如在lzw算法中，如果一个很长的用于记录像素的byte数组，用来记录位置与键关系的表空间，算法推荐为一个1２bit能表述的整数大小，那么足够长的像素数组，如何分散到这样定长的表中呢，lzw算法采用的是可变长编码，具体会在深入介绍lzw算法的时候介绍。

注:hash表最突出的问题在于冲突，就是两个键值经过哈希函数计算出来的索引位置很可能相同，这个问题，下篇文章会令作阐述。

注:之所以会简单得介绍了hash，是为了更好的学习lzw算法，学习lzw算法是为了更好的研究gif文件结构，最后，我将详细的阐述一下gif文件是如何构成的，如何高效操作此种类型文件。

以上就是本文的全部内容，希望能给大家一个参考，也希望大家多多支持猪先飞。

[!--infotagslink--]

上一篇: C#中split用法实例总结

下一篇: C#实现DataSet内数据转化为Excel和Word文件的通用类完整实例

Perl与JS的对比分析(数组、哈希)
下面小编就为大家带来一篇Perl与JS的对比分析(数组、哈希)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧...2020-06-29
C++获取文件哈希值(hash)和获取torrent(bt种子)磁力链接哈希值
这二个代码一个是获取文件哈希值的，另外一个是获取torrent文件磁力链接的哈希值...2020-04-25
PHP5中哈希创建和验证方法详解
如果你使用php5.5版本的话我们对于哈希创建和验证方法就简单多了， PHP 5.5为我们提供了4个函数：password_get_info(), password_hash(), password_needs_rehash(),和pas...2016-11-25
Go语言常见哈希函数的使用
哈希表（Hash table，也叫散列表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。具体的介绍网上有很详细的描述，如闲聊哈希表，这里就不再累述了；...2020-05-07
Redis中哈希分布不均匀的解决办法
这篇文章主要介绍了Redis中哈希分布不均匀的解决办法的相关资料,需要的朋友可以参考下...2021-02-15
C#计算字符串哈希值（MD5、SHA）的方法小结
这篇文章主要介绍了C#计算字符串哈希值（MD5、SHA）的方法,以实例形式较为详细的分析总结了C#计算字符串哈希值的各种常用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
C语言实现散列表（哈希Hash表)实例详解
这篇文章主要介绍了C语言实现散列表（哈希Hash表)实例详解的相关资料,需要的朋友可以参考下...2020-04-25
C#实现给定字符串生成MD5哈希的方法
这篇文章主要介绍了C#实现给定字符串生成MD5哈希的方法,涉及C#操作字符串的相关技巧,需要的朋友可以参考下...2020-06-25
Perl 哈希Hash用法之入门教程
本文和大家重点讨论一下Perl Hash的用法，哈希是一种数据结构，和数组类似，但是，和数组不同的是，其索引不是数字，而是名字。也就是说，索引(这里，我们将它叫key)不是数字而是任意的唯一的字符串...2020-06-29
Perl 哈希的创建和引用介绍
创建,引用仅有两种方法，使用它也是两种,这里简单介绍下，方便需要的朋友...2020-06-29
perl哈希的一个实例分析
上一篇文章介绍了hash的入门教程，这篇文章为大家提供一个实例，方便大家深入学习...2020-06-29
C++哈希应用的位图和布隆过滤器
这篇文章主要介绍了C++哈希应用的位图和布隆过滤器的相关资料,文章内容多以列举试题的方式讲解,感兴趣的朋友可以参考下面文章内容...2021-09-06
C#获取哈希加密生成随机安全码的类实例
这篇文章主要介绍了C#获取哈希加密生成随机安全码的类,涉及C#哈希加密及字符串操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
将一个二维数组转换为 hashmap 哈希表
/** * 将一个二维数组转换为 hashmap * * 如果省略 $val 参数，则转换结果每一项为包含该项所有数据的数组。 * * @param array $arr * @param string $keyF...2016-11-25
perl哈希hash的常见用法介绍
哈希在perl是非常重要且常用的，本文为大家介绍一些常见的用法，供大家学习参考...2020-06-29
为什么哈希存取比较快？使用它需要付出什么代价
本文主要介绍为什么哈希存取比较快的原理，有需要的朋友可以参考一下。...2020-06-25
什么是哈希hash 算法
哈希(Hash)表一般的查找方法基于比较的,查找效率依赖比较次数,其实理想的查找希望不经比较,一次存取便能得到所查记录,那就必须在记录的存储位置和它的关键字...2016-11-25

为什么哈希存取比较快？使用它需要付出什么代价

相关文章

阁下可能感兴趣的内容

推荐阅读