一个文件用perl计算时间太长,又不会设计多线程和并行计算,只好将原始文件切割成多个小文件一起跑,最后再把结果合并了。
这个过程中就涉及切割文件了,在此记录一下用awk根据给定行数切割文件
awk -v count=$line_number 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' $filename
其中,$line_number为你要按照多少行为一个文件来切割原始文件$filename;
实际使用时,将$line_number及$filename替换为你自己的数据就行
注释:
-v count=$line_number #传递参数,按照$line_number行分割,实际使用时替换为你自己的数字
‘BEGIN{}{}’ #主体结构
BEGIN{i=0} #定义一个初始值,这里i来定义文件名,编号从第0个文件开始
{print $0 > sprintf("%s_%d",FILENAME,i) ;#将整行输出到(>)FILENAME(文件句柄,代表最后你的执行文件名)
if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); #当每超过(i+1)*count行时,关闭对应的文件句柄,到这里一个包含(i+1)*count行的文件就结束了
i++;#进行下一个分割文件
$filename #被分割的文件,替换为你自己的即可
举例来说,我用200行作为一个文件来切割我的文件test.txt
awk -v count=200 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' test.txt
执行结果为
test.txt_0;test.txt_1...,最后一个文件为剩余行
这里涉及一个问题,就是第一个文件往往有表头(head),而后边分割的文件没有,这样的话在批量运行程序的时候可能造成困扰。
我通常是额外加一步:
head -n 1 test.txt >head.txt #将表头存在head.txt中
for i in $(ls test.txt_*);do cat head.txt $i>$i.head #遍历切割后获得的文件,将表头添加到每一个子文件的开头并存为新的文件,即test.txt_*.head中。
不完美的是:test.txt_0文件有表头,且200行(切割获得的第一个文件);
test.txt_0.head文件有两个表头,且201行(后来又加了一个表头进去)
其余test.txt_(数字)文件无表头,且200行
test.txt_(数字).head文件有表头,且201行
这样的话在后边批量运行文件的时候,第一个文件要注意一下
rm -f test.txt_0.head #删除有两个表头的文件
mv test.txt_0 test.txt_0.head #将文件重命名为最后加.head
这样所有切割后的文件都有表头且格式一样了,可以进行批量计算了;
第一个文件是200行,其余的是201行哦。
大家有好的建议可以告诉我哦。