在上一篇《C专家编程》的读书笔记中,我分享了我对前3章的一些心得体会,没有看过的朋友可以去这里先阅读那篇文章。这篇文章虽然是从第4章开始,但我只对其中的4、9、10这三章感兴趣。因此我只写了这3章的读书笔记,如果不足,还请大家多多指出。
第4章 令人震惊的事实:数组和指针并不相同
这章主要讲了数组和指针的不同之处。但在切入正题之前,作者简单介绍了下左值和右值。
什么是左值了?左值就是一个在编译时已确定了的地址,这个地址可以是可修改,也可以是不可修改的,只是当其要作为赋值语句的左值时,只能是可修改的左值(因此数组名不能被赋值);而右值就是一个值,其值到运行的时候才可知。作者之所以要先讲左值和右值是为了说明指针和其他类型的变量有很大的区别:所有的变量(不管是指针还是其他变量)在编译时其地址就已知了。对于非指针的变量,我们可以直接根据其地址(也就是作为左值的变量名)来改变其值。但对于指针而言,我们需要修改的并不是指针自身的值,而是指针所指空间的值。因此,指针相对于一般变量而言,需要多操作一步。
如果懂了上面讲的左值和右值,你应该就不会轻易的混用指针和数组了。虽然指针和数组在作为函数参数时候可以互换,但这并不能说明在其他情况下,数组和指针也能随意的互换。在这章中,作者用了一个简单的例子来说明为什么指针和数组是不一样的:
/* 在文件1中 */
int A[100];
/* 在文件2中 */
extern int *A;
/* 一些引用A的代码 */
...
在上面这个例子中,我们定义了一个数组A[100],而在另一个文件中,我们声明了一个指针。如果数组和指针是一样的,那这么做就没什么问题。可它俩毕竟不一样,这么做会产生什么不好的结果吗?在给出结论前,我们先看看指针和数组是如何访问数据的。
首先我们来看看数组是如何访问数据的:
对于数组而言,编译器知道其起始地址,要访问第 i
个元素,编译器只需要在数组 a
的地址基础上偏移 i
个单位地址就行了。
我们再看看看指针是如何访问数据的:
对于指针而言,编译器知道指针的地址,但它的值却是运行时候才知道的。在这个例子中,其中的值是5081,通过这个地址,指针可以修改这个地址存储的数据。
我们再来看看指针是如何用下标访问数据的:
在编译时,编译器知道指针的地址;在运行时,指针获得其值(也就是指针指向的地址),根据这个值,再偏移 i
个单位即可访问存储在第 i
个位置的数据。
看完数组和指针的访问方式,我们再回头看看之前那个问题,看看那样写是否有问题:
- 在文件2中,我们声明
extern int *A
,因此编译器将其当做指针来处理。 - 既然
A
是指针,A[i]
的访问方式应该和图C一样。首先获取A
的地址,然后取值,最后偏移再取数组第i
个元素的值。 - 但我们在文件1中定义的
A[100]
是数组,文件2中指针A
的地址就应该是数组的起始地址。但编译器却将其存储的值作为了数据访问的起始地址。因此,这么做是严重错误的,很可能会产生严重的问题。
在后面的章节,作者还分了2章来详细讲解指针和数组,到时候我们再来看指针和数组的更多细节。
第9章 再论数组
在第4章中,作者简单介绍了为什么数组和指针是不一样的。在这一章中,作者进一步比较了它们的区别,同时介绍了多维数组。
在《The C Programming Language》这本书中,作者说:
作为函数定义的形参时,
char s[]
和char *s
是一样的。
但很多人却忽略了条件,认为在任何情况下数组和指针都是一样的。在实际使用过程中,有3种情况我们可以大胆地在数组和指针中进行转换:
- 数组名被编译器当作指向该数组第一个元素的指针。
- 数组的下标就是指针的偏移量。
- 在函数定义形参时,数组和指针是等效的。
对于第3种情况,之所以数组和指针是等效的,是因为不管形参是指针还是数组,编译器都会将其转换为指向数组第一个元素的指针。为什么要这样呢?因为在C中,实参传递给形参时,会复制一份实参,将复制后的数据传给形参。如果要对数组进行复制,这样会消耗大量的空间。为了节省空间,提高效率,编译器都会将数组或指针形式的形参按指针形式对待。因此,在这种情况下,指针和数组都是一样的。
指针和数组都可以利用下标的形式访问内存空间,但指针和数组是不一样的。在实际使用中,我们只需要记住两点:第一,数组名是指向数组第一个元素的指针;第二,数组和指针的定义一定要和声明一致。
还有一种情况要注意,因为数组名是不可修改的左值(在第4章中有介绍),即使数组名可以看作指针,我们也不能直接给其赋值。但在函数中,通过参数的传递,我们可以给其赋值:
void fun1(int arr[])
{
arr[1] = 3;
arr = array2;
}
vodi fun2()
{
array1[10], array2[10];
array1[0] = 3;
array2[0] = 5;
/* 编译错误!*/
array1 = array2;
}
除了一维数组,C语言还支持多维数组(更确切地说是数组的数组)。书中给出了一个例子,并用一幅图来解释多维数组是如何存储的:
int array[2][4][5];
int (*a)[3][5] = array; // 1)
int (*b)[5] = array[i]; // 2)
int (*c) = array[i][j]; // 3)
int d = array[i][j][k]; // 4)
我们来分析下这段代码,对于一维数组,int a[10]; int *p = a;
这种情况,a
是数组的首地址(也是第一个元素的地址),并且该数组元素类型是 int
。因此 p
的类型是 int *
。我们回到多维数组,在 1)
中,array
是三维数组的首地址,如果我们将其看作数组的数组,那么 array
其实是一个元素为int [3][6]
,容量为 2
的一维数组。因此类比一维数组,我们该用 int (*a)[3][7]
这样的指针来指向 array
。同理,array[0]
和 array[1]
都是元素为一维数组的数组的首地址,因此我们用 int (*b)[5]
来指向 array[i]
。
多维数组是比较难理解的,尤其是和指针,&
, *
以及 malloc()
联系在一起时。不过对于一般的情况,按照上面的分析方法,将多维数组当作数组的数组来处理,会让问题变得简单一些。
第10章 再论指针
这一章承接上一章对数组的讨论,对于一个二维数组 A[m][n]
,编译器将通过以下方式访问元素 (i,j)
:
*(*(A + i) + j)
我们简单分析下,A
是二维数组名,也就是二维数组的首地址。其元素是一个一维数组,通过 *(A + i)
我们访问其第 i
个元素,也就是一个一维数组。这个元素的值是该一维数组的首地址(也就是这个一维数组的“名字”),因此我们通过给它一个 j
的偏移,便可以访问 (i,j)
这个元素了。
如果一个数组的元素是 char
类型的指针,并且每个元素指向一个字符串,以达到类似二维数组的效果。那么这种类型的指针数组就被称为Iliffe向量。Iliffe主要有两个功能:
- 存储长度不一的字符串
- 向函数传递长度不一的字符串数组
对编译器而言,指针数组和二维数组都可以被解释成 *(*(A + i) + j)
这种形式,但其底层原理却完全不同,这和第4章的分析类似,这里我就不详细讲解了,直接把书上的图贴上来:
我们先看二维数组:
我们再看指针数组:
本章最后,作者分析了如何优雅地向函数传递数组。对于一维数组而言,我们定义形参为指向数组第一个元素的指针,而对于传入数组的长度,我们通常有两种方法:
- 增加一个额外的参数
- 将最后一个元素设置为特殊值
而对于二维数组而言,情况要复杂些,因为我们要同时保证不能超越二维数组的行和列。书中给出了四种方法,同时指出最好的传递 A[i][j]
的方法是:
将
A[i][j]
改写成A[i+1]
。A[j]
使用上面介绍的方式限制长度,A[i+1]
用于表示二维数组的行结束了(NULL
指针)。
指针和数组是C语言的难点也是重点,只有深入理解了指针和数组的底层原理,我们才能更好地使用它们。