前言
Git 作为一个强大的分布式版本控制工具,探讨Git的工作原理,知道Git思想和基本原理,用起来才会游刃有余。
平时我们使用Git,都是这样的:
- 创建新工程时:
create file
add files
commit files
push files
- clone 已有工程时:
checkout
create file
add files
commit files
push files
无非就是这几步的操作,如果出现了冲突,解决冲突再提交。
通过这几个简单的命令操作来看看Git 是怎么样保存数据的?
首先理解Git中的几个概念。
三个区域
Git 中有三个重要的区域:工作区域,暂存区,本地数据库,它们的之间的关系为:
为什么中间出现一个暂存区?而不直接把文件从工作区域提交到本地数据库?
暂存区的作用:保存待提交到数据库的文件信息。
加入的原因:
- 可以实现部分的提交到本地数据库
- 在工作区域中,主要的职能就是,对文件状态的修改。如果还要维护一些待提交到数据库的文件,容易造成混乱,违反单一职责原则。
数据库就是保存数据的,你不可能也不会这在数据库里创建一个文件。
四种对象
在Git中 有四种对象 ,blob,tree,commit ,tag。
- blob:存放文件的内容。
- tree:相当于一个目录,目录下还会有子目录,最终的节点上blob,如图所示:
3.commit:指向一次提交,表示项目的快照,指向你一个顶层的tree对象。有个partner字段,指向上一次的提交。
数据的存储
假设我们的本地数据库保存数据:
在版本1中有两个文件:A和B
在版本2 中修改了A文件变成A1文件。
如果把每一个版本都要保存到数据库中,需要保存4个文件。而实际上,Git只保存了3个文件,分别A,B,A1。
在Git中同样的文件只会保存一份,如何保证同一个文件只保存一份?这就引入了sha-1算法。
可以使用git命令计算文件的 sha-1 值。
echo 'version A' | git hash-object --stdin
0809ef163cd3b01c24087c94153bfc63489d4f9b
sha-1将文件中的内容通过通过计算生成一个 40 位长度的hash值。
sha-1的特点:
由文件内容计算出的hash值
hash值相同,文件内容相同
通过sha-1算法生成的值作为key,就能保证相同的文件只保存一份了。
我们也知道,在Git中,全部的数据在保存在 ./git/objects下
我们可以看到,在 objects 目录下,存放了很多文件,他们都使用 sha-1 的前两位创建了文件夹,剩下的38位作为文件名。
因此上面的两次提交,Git 是这样保存的。
END。