为什么哈希存取比较快?使用它需要付出什么代价

 更新时间:2020年6月25日 11:24  点击:1297

  哈希表和哈希函数是大学数据结构中的课程,实际开发中我们经常用到Hashtable这种结构,当遇到键-值对存储,采用Hashtable比ArrayList查找的性能高。为什么呢?我们在享受高性能的同时,需要付出什么代价(这几天看红顶商人胡雪岩,经典台词:在你享受这之前,必须受别人吃不了的苦,忍受别人受不了的屈辱),那么使用Hashtable是否就是一桩无本万利的买卖呢?就此疑问,做以下分析,希望能抛砖引玉。

一、hash它为什么对于键-值查找性能高
  学过数据结构的,都应该晓得,线性表和树中,记录在结构中的相对位置是随机的,记录和关键字之间不存在明确的关系,因此在查找记录的时候,需要进行一系列的关键字比较,这种查找方式建立在比较的基础之上,在.net中(Array,ArrayList,List)这些集合结构采用了上面的存储方式。
比如,现在我们有一个班同学的数据,包括姓名,性别,年龄,学号等。假如数据有

姓名 性别 年龄 学号
张三 15 1
李四 14 2
王五 14 3

假如,我们按照姓名来查找,假设查找函数FindByName(string name);
1)查找“张三”
只需在第一行匹配一次。
2)查找"王五"
  在第一行匹配,失败,
  在第二行匹配,失败,
  在第三行匹配,成功
上面两种情况,分别分析了最好的情况,和最坏的情况,那么平均查找次数应该为 (1+3)/2=2次,即平均查找次数为(记录总数+1)的1/2。
尽管有一些优化的算法,可以使查找排序效率增高,但是复杂度会保持在log2n的范围之内。
如何更更快的进行查找呢?我们所期望的效果是一下子就定位到要找记录的位置之上,这时候时间复杂度为1,查找最快。如果我们事先为每条记录编一个序号,然后让他们按号入位,我们又知道按照什么规则对这些记录进行编号的话,如果我们再次查找某个记录的时候,只需要先通过规则计算出该记录的编号,然后根据编号,在记录的线性队列中,就可以轻易的找到记录了 。
注意,上述的描述包含了两个概念,一个是用于对学生进行编号的规则,在数据结构中,称之为哈希函数,另外一个是按照规则为学生排列的顺序结构,称之为哈希表。
仍以上面的学生为例,假设学号就是规则,老师手上有一个规则表,在排座位的时候也按照这个规则来排序,查找李四,首先该教师会根据规则判断出,李四的编号为2,就是在座位中的2号位置,直接走过去,“李四,哈哈,你小子,就是在这!”
看看大体流程:
 
从上面的图中,可以看出哈希表可以描述为两个筒子,一个筒子用来装记录的位置编号,另外一个筒子用来装记录,另外存在一套规则,用来表述记录与编号之间的联系。这个规则通常是如何制定的呢?

a)直接定址法:
  我在前一篇文章对GetHashCode()性能比较的问题中谈到,对于整形的数据GetHashCode()函数返回的就是整形   本身,其实就是基于直接定址的方法,比如有一组0-100的数据,用来表示人的年龄
那么,采用直接定址的方法构成的哈希表为:

0 1 2 3 4 5
0岁 1岁 2岁 3岁 4岁 5岁

.....
这样的一种定址方式,简单方便,适用于元数据能够用数字表述或者原数据具有鲜明顺序关系的情形。

b)数字分析法:

  有这样一组数据,用于表述一些人的出生日期

75 10 1
75 12 10
75 02 14

分析一下,年和月的第一位数字基本相同,造成冲突的几率非常大,而后面三位差别比较大,所以采用后三位

c)平方取中法

  取关键字平方后的中间几位作为哈希地址

d)折叠法:

  将关键字分割成位数相同的几部分,最后一部分位数可以不相同,然后去这几部分的叠加和(取出进位)作为哈希地址,比如有这样的数据20-1445-4547-3
可以
        5473
+      4454
+        201
=    10128
取出进位1,取0128为哈希地址

e)取余法

  取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。H(key)=key MOD p (p<=m)

f)随机数法

  选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key)=random(key) ,其中random为随机函数。通常用于关键字长度不等时采用此法。

总之,哈希函数的规则是:通过某种转换关系,使关键字适度的分散到指定大小的的顺序结构中。越分散,则以后查找的时间复杂度越小,空间复杂度越高。

二、使用hash,我们付出了什么?

  hash是一种典型以空间换时间的算法,比如原来一个长度为100的数组,对其查找,只需要遍历且匹配相应记录即可,从空间复杂度上来看,假如数组存储的是byte类型数据,那么该数组占用100byte空间。现在我们采用hash算法,我们前面说的hash必须有一个规则,约束键与存储位置的关系,那么就需要一个固定长度的hash表,此时,仍然是100byte的数组,假设我们需要的100byte用来记录键与位置的关系,那么总的空间为200byte,而且用于记录规则的表大小会根据规则,大小可能是不定的,比如在lzw算法中,如果一个很长的用于记录像素的byte数组,用来记录位置与键关系的表空间,算法推荐为一个12bit能表述的整数大小,那么足够长的像素数组,如何分散到这样定长的表中呢,lzw算法采用的是可变长编码,具体会在深入介绍lzw算法的时候介绍。

注:hash表最突出的问题在于冲突,就是两个键值经过哈希函数计算出来的索引位置很可能相同,这个问题,下篇文章会令作阐述。

注:之所以会简单得介绍了hash,是为了更好的学习lzw算法,学习lzw算法是为了更好的研究gif文件结构,最后,我将详细的阐述一下gif文件是如何构成的,如何高效操作此种类型文件。

以上就是本文的全部内容,希望能给大家一个参考,也希望大家多多支持猪先飞。

[!--infotagslink--]

相关文章

  • Perl与JS的对比分析(数组、哈希)

    下面小编就为大家带来一篇Perl与JS的对比分析(数组、哈希)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-06-29
  • C++获取文件哈希值(hash)和获取torrent(bt种子)磁力链接哈希值

    这二个代码一个是获取文件哈希值的,另外一个是获取torrent文件磁力链接的哈希值...2020-04-25
  • PHP5中哈希创建和验证方法详解

    如果你使用php5.5版本的话我们对于哈希创建和验证方法就简单多了, PHP 5.5为我们提供了4个函数:password_get_info(), password_hash(), password_needs_rehash(),和pas...2016-11-25
  • Go语言常见哈希函数的使用

    哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。具体的介绍网上有很详细的描述,如闲聊哈希表 ,这里就不再累述了;...2020-05-07
  • Redis中哈希分布不均匀的解决办法

    这篇文章主要介绍了Redis中哈希分布不均匀的解决办法的相关资料,需要的朋友可以参考下...2021-02-15
  • C#计算字符串哈希值(MD5、SHA)的方法小结

    这篇文章主要介绍了C#计算字符串哈希值(MD5、SHA)的方法,以实例形式较为详细的分析总结了C#计算字符串哈希值的各种常用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
  • C语言实现散列表(哈希Hash表)实例详解

    这篇文章主要介绍了C语言实现散列表(哈希Hash表)实例详解的相关资料,需要的朋友可以参考下...2020-04-25
  • C#实现给定字符串生成MD5哈希的方法

    这篇文章主要介绍了C#实现给定字符串生成MD5哈希的方法,涉及C#操作字符串的相关技巧,需要的朋友可以参考下...2020-06-25
  • Perl 哈希Hash用法之入门教程

    本文和大家重点讨论一下Perl Hash的用法,哈希是一种数据结构,和数组类似,但是,和数组不同的是,其索引不是数字,而是名字。也就是说,索引(这里,我们将它叫key)不是数字而是任意的唯一的字符串...2020-06-29
  • Perl 哈希的创建和引用介绍

    创建,引用仅有两种方法,使用它也是两种,这里简单介绍下, 方便需要的朋友...2020-06-29
  • perl哈希的一个实例分析

    上一篇文章介绍了hash的入门教程,这篇文章为大家提供一个实例,方便大家深入学习...2020-06-29
  • C++哈希应用的位图和布隆过滤器

    这篇文章主要介绍了C++哈希应用的位图和布隆过滤器的相关资料,文章内容多以列举试题的方式讲解,感兴趣的朋友可以参考下面文章内容...2021-09-06
  • C#获取哈希加密生成随机安全码的类实例

    这篇文章主要介绍了C#获取哈希加密生成随机安全码的类,涉及C#哈希加密及字符串操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
  • 将一个二维数组转换为 hashmap 哈希表

    /** * 将一个二维数组转换为 hashmap * * 如果省略 $val 参数,则转换结果每一项为包含该项所有数据的数组。 * * @param array $arr * @param string $keyF...2016-11-25
  • perl哈希hash的常见用法介绍

    哈希在perl是非常重要且常用的,本文为大家介绍一些常见的用法,供大家学习参考...2020-06-29
  • 为什么哈希存取比较快?使用它需要付出什么代价

    本文主要介绍为什么哈希存取比较快的原理,有需要的朋友可以参考一下。...2020-06-25
  • 什么是哈希hash 算法

    哈希(Hash)表 一般的查找方法基于比较的,查找效率依赖比较次数,其实理想的查找希望不经比较,一次存取便能得到所查 记录,那就必须在记录的存储位置和它的关键字...2016-11-25