利用pv命令监视数据的处理进度

How to Monitor Progress of (Copy/Backup/Compress) Data using 'pv' Command

在处理Linux系统上的大文件时, 特别是拷贝/备份/压缩这些操作, 可能想要了解这些大文件的处理进度, 然而在管道中工作的终端工具可能并没有提供查看进度信息的功能, 此时就需要称为'pv'或者Pipe Viewer的工具监控通过管道的数据的进度信息, 已消耗的时间, 进度条显示的完成百分比, 当前管道的吞吐量, 已传输的数据量, 预计完成的时间等.

引申阅读: 利用nc命令快速完成目录数据传输
引申阅读: 利用tar命令进行压缩


1. 描述

来源: CentOS Linux release 7.2.1511 (Core) User Manuals PV(1)

语法:

pv [OPTION] [FILE]  
pv [-h|-V]  

Pipe Viewer用于监视通过管道的数据进度信息. pv使用户能够看到数据通过管道的进度, 并提供例如耗时,完成比例,吞吐量,传输量和ETA等这些信息. 为了实现上述功能需要将该命令插入到两个进程之间的管道中, 并佐以合适的选项. 它的标准输入经由它到达其标准输出, 同时进度信息会显示在标准错误上. pv依次拷贝FILE中的数据到其标准输出( - 表示标准输入), 如果FILE未提供仅仅拷贝标准输入. 该命令行的行为与cat类似.

  • 注意:如果输入数据量无法计算, 并且输出是一个块设备, 那么块设备的大小会用来作为输出总量, 即使指定了-S --stop-at-size选项, pv也会停在该位置.

2. 示例

不带任何选项时, 默认自带-p --progress(带进度条的完成比例), -t --timer(已消耗时间), -e --eta(预估剩余时间), -r --rate(已传输总量), -b --bytes(数据量总量)

2.1 监视打开/拷贝文件进度

利用pv打开一个文件, 标准输出可以重定向到一个新文件或者/dev/null. -L 选项表示限速, 控制通过pv的数据流速, 便于查看进度信息. 默认显示进度信息包括: 传输的数据量, 已消耗时间, 数据传输速率, 进度条和完成比率, 预估剩余时间.

[root]pv -L 10k cups-2.1.4-source.tar.gz 1>/dev/null
30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03
[root]pv -L 10k cups-2.1.4-source.tar.gz 1>cups-2.1.4-source.tar.gz.bak
30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03

2.2 监视压缩文件进度

利用pv打开一个数据通道, 并将pv的标准输出作为zip的标准输入.
'-' 表示zip命令压缩当前标准输入的数据.
为了清除zip程序的标准错误输出, 将其中定向到Null设备, 此时输出信息就只剩下pv的标准错误输出信息.

[root]pv -L 10k cups-2.1.4-source.tar.gz | zip 1>/dev/null
  adding: -  10kiB 0:00:01 [9.23kiB/s] [====>                                 ] 14% 
  67.6kiB 0:00:06 [9.98kiB/s] [====================================>] 100%            
 (deflated 0%)
[root]pv -L 10k cups-2.1.4-source.tar.gz | (zip 1>cups.zip 2>/dev/null)             
30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03
[root]pv -L 10k cups-2.1.4-source.tar.gz | (zip 1>/dev/null 2>/dev/null)
67.6kiB 0:00:06 [9.98kiB/s] [====================================>] 100%  

gzip直接压缩文件和通过pv显示进度信息的执行过程比较

[root]gzip -c pvtest.dat > pvtest.dat.gz
[root]du -sb pvtest.dat.gz 
5781    pvtest.dat.gz
[root]pv -L 10k pvtest.dat | gzip > pvtest.dat.gz    
14.8kiB 0:00:01 [10.3kiB/s] [===============================>] 100%            
[root]du -sb pvtest.dat.gz 
5770    pvtest.dat.gz 

2.3 监视数据内容搜索进度

利用wc命令计算文件的行数/词数/字节数, wc没有进度信息的功能, 通过pv来监视数据传输量就可以很容易得到当前文件的完成比例.

[root]pv -L 5k pvtest.dat | wc
14.8kiB 0:00:02 [4.97kiB/s] [====================================>] 100%            
    381    2095   15169

利用grep命令搜索文件内容, -n命令以整数显示数据量的完成比例, -i设置进度更新间隔时间(可以是小数), 可以很容易看出完成的比例.

[root]pv -n -i 0.5 -L 5k pvtest.dat | grep seconds
16
              use, then each output line is prefixed with the elapsed time so far, as a decimal number of seconds.
33
              Wait SEC seconds between updates.  The default is to update every second.  Note that this can be a decimal such as 0.1.
50
67
84
100

利用grep命令搜索文件内容, -N 标记经由pv的管道流名称.

[root]pv -N GrepRate -i 0.1 -L 5k pvtest.dat | grep seconds
              use, then each output line is prefixed with the elapsed time so far, as a decimal number of seconds.
              Wait SEC seconds between updates.  The default is to update every second.  Note that this can be a decimal such as 0.1.
GrepRate: 11.5kiB 0:00:02 [5.53kiB/s] [===================>       ] 77% ETA 0:00:00

2.4 监视tar的备份进度

tar命令中的第一个'-'写备份文件到标准输出, 备份文件通过管道作为pv的标准输入, 经由pv后作为标准输出写入文件down.tgz.
pv显示选项中的部分长短选项-t --timer, -r --rate, -b --bytes.
由于数据总量无法后去, 完成比例的进度条显示就无法明确显示, 同时-e --eta亦-p --propress也是无法显示.

[root]tar -czf - ./down/ | (pv -L 10k -p --timer --rate --bytes > down.tgz)
68.1kiB 0:00:06 [9.91kiB/s] [       <=>                                            ]

对tar文件不启用压缩, 而是通过后续的gzip命令来压缩数据, 为了获取总数据量, -s 参数配合du命令.
从最后的结果来看, 最后的结果显示略有差别, gzip压缩后的文件比原始文件稍大. 造成这种差别gzip再次压缩gz文件时文件头造成的.
经过测试发现在文件较大时, 其结果更令人满意. 文件较小时测试结果很令人费解, 显示相差巨大.

[root]tar -cf - cups-2.1.4-source.tar.gz | pv -L 10k -s $(du -sb cups-2.1.4-source.tar.gz | awk '{print $1}') | gzip > ../out.tgz
  70kiB 0:00:06 [10.1kiB/s] [=====================================] 103%  
[root]tar -cf - audit.gz | pv -L 1m -s $(du -sb audit.gz | awk '{print $1}') | gzip > out.tgz
1.55MiB 0:00:01 [1.03MiB/s] [====================================>] 100% 
[root]tar -cf - backup.tgz | pv -L 10k -s $(du -sb backup.tgz | awk '{print $1}') | gzip > out.tgz                                                                                            
  10kiB 0:00:00 [11.1kiB/s] [====================================>] 22755%
[root]tar -cf - audit.zip | pv -L 1m -s $(du -sb audit.zip | awk '{print $1}') | gzip > out.tgz            
1.25MiB 0:00:01 [1.02MiB/s] [====================================>] 100%

2.5 配置dialog显示进度条

通过-s参数指定数据总量, 进度条的显示应该就会先正确. dialog只接受标准输入的数字, 所以pv要使用-n参数输出数字比例, 同时pv的标准错误要重定向到标准输出中, dialog才能从标准输入接收到数据. gauge是进度条类型, 后续参数是描述信息, 进度条高度终端比率和长度终端比例.

tar -czf - ./down/ | (pv -L 10k -s 69705 -n > down.tgz) 2>&1 | dialog --gauge "Progress" 10 70

2.6 显示多个pv进度条

将gzip的源文件和目标文件都通过pv, 显示源读取和gzip输出目标的进度信息.
多个进度条时-c 参数必不可少, 防止进度条在更新时交叉覆盖, 虽然最后的效果和输出相同但是中间过程可能看不清楚.
GzipDest管道数据流由于无法获取数据总量, 所以进度的显示会出现偏差, 还有部分显示内容无法计算.
在压缩过程中可以通过对rate进行计算, 就可以了解到大概的压缩比例 9.95/1.94.

-c 使用游标定位转义序列替换仅仅只使用回车, 与-N 联合使用时, 对处于单一长数据管道的多个pv很有效.

[root]pv -L 10k -cN GzipSour pv.man pvtest.dat | gzip | pv -cN GzipDest > pv.pvtest.gz
 GzipDest:    0 B 0:00:02 [   0 B/s] [<=>                                          ]
 GzipSour:   20kiB 0:00:02 [10.1kiB/s] [=================>         ] 67% ETA 0:00:00
[root]pv -L 10k -cN GzipSour pv.man pvtest.dat | gzip | pv -cN GzipDest > pv.pvtest.gz
 GzipDest: 5.79kiB 0:00:02 [1.94kiB/s] [<=>                                        ]
 GzipSour: 29.6kiB 0:00:02 [9.95kiB/s] [=========================>] 100%   
[root]pv -L 10k -N GzipSour pv.man pvtest.dat | gzip | pv -N GzipDest > pv.pvtest.gz  
GzipSour:   20kiB 0:00:02 [10.1kiB/s] [===================>       ] 67% ETA 0:00:00  

2.7 大量数据网络传输

假设有机器A, 地址128.160.171.181; 机器B, 地址128.160.64.115
首先要在机器B上面制造数据, 数据都处于同一个目录内, 利用tar和pv拷贝/usr/lib中的所有文件到upload目录, 可以通过这种方式看到进度信息.

[root]cd /tmp
[root]mkdir upload
[root]cd upload
[root]tar -C /usr/lib -cf - . | pv | tar -xf -
 299MB 0:00:01 [ 266MB/s] [      <=>             ]

在机器B上面发布nc命令并启动侦听端口6666, 然后会发现nc开始挂起, 等待连接.
在机器A开始发布命令时, 机器B也可以显示进度条, 显示数据的传输.

如果在机器A上面要看到进度条的完成比例, 可以使用du -sb upload计算数据总量.

[root]tar -cf - upload | pv | nc -l -p 6666
1.27GB 0:00:11 [ 110MB/s] [    <=>                    ]
[root]tar -cf - upload | pv -s $(du -sb upload | awk '{print $1}') | nc -l -p 6666  
1.27GiB 0:00:25 [51.3MiB/s] [====================================>] 101%

在机器A上面通过nc命令访问机器B和指定端口并通过tar解压缩文件, 可以看到此时数据开始传输并显示进度条.

[root]nc 128.160.171.181 6666 | pv | tar -xf -
1.27GB 0:00:11 [ 110MB/s] [    <=>                    ]

2.8 读写镜像文件

系统读/dev/zero设备, 并输出到标准输出的速率
系统读/dev/zero设备, 并输出到Null设备的速率

[root]  pv /dev/zero
169MiB 0:00:06 [28.5MiB/s] [      <=>                                             ]
[root]pv /dev/zero > /dev/null
15GiB 0:00:08 [6.58GiB/s] [       <=>                                             ]

制作一个磁盘的镜像, -E 忽略读错误, -EE 忽略并报告读错误
从磁盘镜像中恢复
清空磁盘

注意:如果输入数据量无法计算, 并且输出是一个块设备, 那么块设备的大小会用来作为输出总量, 即使指定了-S --stop-at-size选项, pv也会停在该位置.

pv -EE /dev/sda > disk-image.img
pv disk-image.img > /dev/sda
pv < /dev/zero > /dev/sda

3. 参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,852评论 6 13
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,401评论 25 707
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,128评论 2 34
  • 第四回 向东老总拿我开涮 打完鸡血梦里迷乱 上回说到江湖险恶,骗子盛行,租房工作几乎到了走投无路的地步。 那天,跟...
    田大善人阅读 392评论 4 12
  • 罗振宇老师讲的两眼论在书中举了一个很好的例子围棋之道,两者的共同点就是生存,能够找到对的方法生存下去。大多数的生存...
    f961ff2e749a阅读 234评论 0 0