2019-08-08 awk 按行数切割文件

一个文件用perl计算时间太长,又不会设计多线程和并行计算,只好将原始文件切割成多个小文件一起跑,最后再把结果合并了。

这个过程中就涉及切割文件了,在此记录一下用awk根据给定行数切割文件

awk -v count=$line_number 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' $filename
其中,$line_number为你要按照多少行为一个文件来切割原始文件$filename;
实际使用时,将$line_number及$filename替换为你自己的数据就行
注释:
-v count=$line_number  #传递参数,按照$line_number行分割,实际使用时替换为你自己的数字
‘BEGIN{}{}’ #主体结构
BEGIN{i=0} #定义一个初始值,这里i来定义文件名,编号从第0个文件开始
 {print $0 > sprintf("%s_%d",FILENAME,i) ;#将整行输出到(>)FILENAME(文件句柄,代表最后你的执行文件名)
 if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); #当每超过(i+1)*count行时,关闭对应的文件句柄,到这里一个包含(i+1)*count行的文件就结束了
i++;#进行下一个分割文件
$filename #被分割的文件,替换为你自己的即可
举例来说,我用200行作为一个文件来切割我的文件test.txt
awk -v count=200 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' test.txt
执行结果为
test.txt_0;test.txt_1...,最后一个文件为剩余行

这里涉及一个问题,就是第一个文件往往有表头(head),而后边分割的文件没有,这样的话在批量运行程序的时候可能造成困扰。
我通常是额外加一步:

head -n 1 test.txt >head.txt #将表头存在head.txt中
for i in $(ls test.txt_*);do cat head.txt $i>$i.head #遍历切割后获得的文件,将表头添加到每一个子文件的开头并存为新的文件,即test.txt_*.head中。

不完美的是:test.txt_0文件有表头,且200行(切割获得的第一个文件);
test.txt_0.head文件有两个表头,且201行(后来又加了一个表头进去)
其余test.txt_(数字)文件无表头,且200行
test.txt_(数字).head文件有表头,且201行
这样的话在后边批量运行文件的时候,第一个文件要注意一下

rm -f test.txt_0.head #删除有两个表头的文件
mv test.txt_0 test.txt_0.head #将文件重命名为最后加.head

这样所有切割后的文件都有表头且格式一样了,可以进行批量计算了;
第一个文件是200行,其余的是201行哦。
大家有好的建议可以告诉我哦。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342