线性表中有一种分类方式:顺序存储结构和链表
其中顺序存储结构定义为:用一段连续地址的存储单元依次存储线性表的数据元素。
什么是数组?
数组就是线性表的顺序存储结构。
数组是所有计算机语言中都有的基本数据结构。我们每个人都不会陌生的,但是大多数时候我们都只是在用而已。并没有深究过数据真正的一些深层次的意义。
数组有哪些特点?
数组的存储地址是连续的
数组的数据元素的类型都是一样
数组支持随机访问
数组插入和删除数据的复杂度为 O(n)
数组定制的连续性
我们通常定义一个数组时,其中内存空间给我们分配的内存地址公式是这样的:
a[n]_address = base_address +n * data_type_size
其中 :
a[n]_address :示的是某个数组元素的地址。
base_address : 表示数据元素的首地址
n : 表示当前的数组元素的位置。
data_type_size : 表示数组元素的类型。在内存中申请内存空间的最基本的单元是字节。
从内存分配的公式基本可以体现数组基本所有的特点,但是还有最直观的还是地址的连续性。
数组的数据元素类型是相同的
这一点从上面的公式去体现和理解,data_type_size 就是表示数组元素类型的字节为单位长度,比如 int 类型为 4 个字节,byte 类型就是 1 一个。如果不能保证数组中数据类型是统一的,那么就没有办法通过公式统计出某一长度数据需要申请的一段连续内存区域的大小了。也可以理解为数组中数据不能随意赋值和移动了。因为把一个 int 放到一个 byte 类型数据元素位置,肯定是会丢失精度的。那么这个数据结构的设计都已经被破坏了。
数组的随机访问
数组的随机访问是由于数据的地址是连续所有,如果在我们知道一个下标的情况下。我可以直接通过下标直接访问,但是如果需要查询这个某个元素是否在数组中的话,还是需要通过遍历去发现的,最好的情况是 O(1), 最坏的情况是 O(n)。所以我们通常说在数组( ArrayList )查询( O(1) )和链表( LinkedList )查询 (O(n) )的时间复杂度不一样,这种说法是不严谨的,应该是数组支持随机访问的,并且时间复杂是 O(1)。而链表不支持随机访问。但是对于有序数组来说查询的时候,可以通过优化查询算法降低查询的时间复杂度。但是链表必须是一个一个遍历去查找的。
数组插入和删除数组的时间复杂度为O(n)
在数据中插入某一个元素,势必会有需要移动其他的数组元素,除非最好的情况是这个数据插入在数组末尾,但是如果是最坏的情况是插入在头部,那么所有的元素都是需要向后面移动一位。如图所示:
针对这种情况有一些优化的方式,如下:
插入数据:对于无序数组,如果插入某个元素,既然不需要有序,那就让这个元素插入到最后一个,或者把需要的插入的元素放入到指定位置,而指定位置之前的数据元素,放到放到最后一位去。但是对于有序元素就必须根据插入的位置进行位移操作了。
删除数据:正常删除数据的时候,删除完成之后,需要位移影响的数据元素。但是如果先记录需要删除的数据,而不是去真正删除这个数据,而是等到数组大小不够用的时候,再去触发删除,这样的效果就只要删除一下,可以避免每次删除操作的时候都去位移数据元素。在 JVM 中的标记-清除的垃圾回收机制就是大致通过这种思路实现的。
为什么数组的下标从 0 开始
根据前面的公式
a[n]_address = base_address +n * data_type_size
n: 表示的是数据的针对起始位置的偏移量,用另一词理解就是 offset .
如果从 1 开始就是如下公式:
a[n]_address = base_address +(n-1) * data_type_size
对于cpu 来说每次都需要进行一个 n-1 操作,虽然看起来没有什么,但是数据量达到一定数量级,这就是一个很值得优化的地方。
文章的大部分内容是来源于《极客时间》的算法专栏(王争)和《大话数据结构》一书。