Git的原理简析

前言

Git 作为一个强大的分布式版本控制工具，探讨Git的工作原理，知道Git思想和基本原理，用起来才会游刃有余。

平时我们使用Git，都是这样的：

create file
add files
commit files
push files

checkout
create file
add files
commit files
push files

无非就是这几步的操作，如果出现了冲突，解决冲突再提交。

通过这几个简单的命令操作来看看Git 是怎么样保存数据的？
首先理解Git中的几个概念。

三个区域

Git 中有三个重要的区域：工作区域，暂存区，本地数据库，它们的之间的关系为：

i01.png

为什么中间出现一个暂存区？而不直接把文件从工作区域提交到本地数据库？

暂存区的作用：保存待提交到数据库的文件信息。
加入的原因：

数据库就是保存数据的，你不可能也不会这在数据库里创建一个文件。

在Git中有四种对象，blob，tree，commit ，tag。

i06.png

3.commit：指向一次提交，表示项目的快照，指向你一个顶层的tree对象。有个partner字段，指向上一次的提交。

假设我们的本地数据库保存数据：

i03.png

在版本1中有两个文件：A和B
在版本2 中修改了A文件变成A1文件。

如果把每一个版本都要保存到数据库中，需要保存4个文件。而实际上，Git只保存了3个文件，分别A，B，A1。

在Git中同样的文件只会保存一份，如何保证同一个文件只保存一份？这就引入了sha-1算法。

可以使用git命令计算文件的 sha-1 值。

echo 'version A' | git hash-object --stdin
0809ef163cd3b01c24087c94153bfc63489d4f9b

sha-1将文件中的内容通过通过计算生成一个 40 位长度的hash值。

sha-1的特点：

由文件内容计算出的hash值
hash值相同，文件内容相同

通过sha-1算法生成的值作为key，就能保证相同的文件只保存一份了。
我们也知道，在Git中，全部的数据在保存在 ./git/objects下

i.png

我们可以看到，在 objects 目录下，存放了很多文件，他们都使用 sha-1 的前两位创建了文件夹，剩下的38位作为文件名。

因此上面的两次提交，Git 是这样保存的。

i04.png

END。

最后编辑于：2017.12.04 06:21:36