1、工作原理
sort 是将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按照ASCII码值进行比较,默认将他们按照升序输出
sort ./log.test
192.168.1.100
192.168.1.100
192.168.1.100
192.168.1.100
192.168.2.100
192.168.2.100
192.168.3.100
192.168.3.100
2、sort -r
降序
sort -r ./log.test
192.168.3.100
192.168.3.100
192.168.2.100
192.168.2.100
192.168.1.100
192.168.1.100
192.168.1.100
192.168.1.100
3、sort -u
在输出中去重
cat ./log.test
192.168.1.100
192.168.2.100
192.168.1.100
192.168.3.100
192.168.1.100
192.168.2.100
192.168.1.100
192.168.3.100
sort -u ./log.test
192.168.1.100
192.168.2.100
192.168.3.100
4、sort -o
将排序结果输出到原文件
sort的默认输出是输出到标准输出,如果想把结果输出到文件,需要 sort file > newfile,但是如果想把结果输出到原文件这样就不行了,这时就需要 使用sort -o
cat ./log.test
192.168.1.100
192.168.2.100
192.168.1.100
192.168.3.100
192.168.1.100
192.168.2.100
192.168.1.100
192.168.3.100
sort -r ./log.test -o ./log.test
cat ./log.test
192.168.3.100
192.168.3.100
192.168.2.100
192.168.2.100
192.168.1.100
192.168.1.100
192.168.1.100
192.168.1.100
5、sort -n
以数值来排序
sort 默认是按照字符串排序的,这样就会出现10比3小的情况,sort -n 就可以告诉sort 以整数排序
sort ./num.log
1
10
3
9
sort ./num.log -n
1
3
9
10
6、sort的 -k 和 -t
-t 后面跟 分隔符
-k 后面跟数字,表示用第几列排序
如 sort -t : -k 2 表示把每行 以:号分割,按照第二列排序
cat ./test2.log
banana:30:5.5
apple:10:2.5
pear:90:2.3
orange:20:3.4
sort -t : -k 2 -r -n ./test2.log
pear:90:2.3
banana:30:5.5
orange:20:3.4
apple:10:2.5
7、玩转 sort -k
1)先看一下文件内容
cat ./test3.log
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
2) 按第一个域进行排序
sort -t ' ' -k 1 ./test3.log
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
3) 按第二个域进行排序
sort -n -t ' ' -k 2 ./test3.log
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
我们可以看到,当baidu 和soho都是100的时候,baidu排在前面,当当前域按照默认规矩,是从第一个域开始进行升序排序,因此baidu排在了sohu前面。
4) 按第二个域进行排序,如果第二个域相同,再按照第三个域排序
sort -n -t ' ' -k 2 -k 3 ./test3.log
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
sort 支持 -k 2 -k3这种模式,如果你需要,你可以继续这么写下去
5) 按照 第三个域 降序,然后如果第三个域相同,按照第二个域升序
sort -n -t ' ' -k 3r -k 2 ./test3.log
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
你仔细看看,在-k 3后面偷偷加上了一个小写字母r,r和-r的作用是一样,你也可以把前面的-n去掉 在r后面加上n,如下
sort -t ' ' -k 3nr -k 2 ./test3.log
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
其实-k 选项 功能很强大,语法[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]
从逗号前后 分为两大部分,即-k 2,2,是严格使用第一个域排序,如果只设置-k 2 其实是按照从第一个域到行尾。逗号分开的每部分又有一个点表示子域,即-k 1.2表示 按照第一个域的第二个字符排序,Modifiers就是我们用到的n和r 如 -k 1.2nr 具体我们看下面的例子。
6)从第一个域的第二个字母开始进行排序
sort -t ' ' -k 1.2 ./test3.log
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
我们使用了-k 1.2,这就表示对第一个域的第二个字符开始到本域的最后一个字符为止的字符串进行排序。你会发现baidu因为第二个字母是a而名列榜首。sohu和 google第二个字符都是o,但sohu的h在google的o前面,所以两者分别排在第二和第三。这和之前说到的按照默认的排序规则 是不同的,当第一个域的第二个字符相同时,他不会去按照第一个字符排序,而是按照后面的字符排序,这是因为-k 1.2是对第一个域的第二个字符开始到本域的最后一个字符为止的字符串进行排序。而之前的夸域其实是一种假象。
7)只针对第一个域的第二个字母进行排序,如果相同的按照员工工资进行降序排序
sort -t ' ' -k 1.2,1.2 -k 3,3nr ./test3.log
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
8) -k 和 -u
sort -t ' ' -k 2n -u ./test3.log
guge 50 3000
baidu 100 5000
google 110 5000
-u只识别用-k设定的域,发现相同,就将后续相同的行都删除
sort -n -k 2 -k 3 -u facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
但是这时候,却一行也没有删除。原来-u是会权衡所有-k选项,将都相同的才会删除,只要其中有一级不同都不会轻易删除的
9) 在modifier部分还可以用到哪些选项?
可以用到b、d、f、i、n 或 r。
其中n和r你肯定已经很熟悉了。
b表示忽略本域的签到空白符号。
d表示对本域按照字典顺序排序(即,只考虑空白和字母)。
f表示对本域忽略大小写进行排序。
i表示忽略“不可打印字符”,只针对可打印字符进行排序。(有些ASCII就是不可打印字符,比如\a是报警,\b是退格,\n是换行,\r是回车等等)