第九章 管理真实的程序(三) -文件

文件

绝大多数程序和真实世界交互都是通过读、写文件的方式,而Perl非常擅长处理文本。

输入和输出

文件句柄代表了当前状态下的一个指定的输入或输出通道。每个Perl程序都有3个标准文件句柄可用:STDIN(程序的标准输入)、STDOUT(程序的标准输出);STDERR(程序的错误输出)。默认情况下,函数print和say就是向STDOUT输出内容;而错误和告警信息则会输出到STDERR。根据需要我们可以把标准输出信息和错误信息分别输出到不同的地方---一个输出文件和一个错误日志。

使用内置函数open来得到一个文件句柄。如打开一个文件用来读:

open my $fh, '<', 'filename' or die "Cannot read '$filename': $!\n";

第一个操作数是一个词法变量,操作成功后变量将会包含一个文件句柄;第二个操作数是文件的操作类型,如读、写、追加;最后的操作数就是目标文件。若打开文件失败,die语句会抛出一个异常,失败的原因会包含在$!这个变量里。

文件操作有多种类型,比较重要的文件操作有:

< 读
> 写
>> 追加,若文件不存在则创建一个新文件
+< 读和写
-| 打开一个管道用于读
|- 打开一个管道用于写

你甚至可以为普通的变量创建文件句柄,这样就可以使用句柄的方式读写变量:

open my $read_fh, '<', \$fake_input;
open my $write_fh, '>', \$captured_output;

do_something_awesome( $read_fh, $write_fh );



my $read;
open my $fh,">",\$read;
print $fh "good";
print $read;
#good

perldoc perlopentut查看有关open更多、更奇特的用法。

你还记得autodie吗?
本章节的所有例子都假设已经使用use autodie;这样就能省略错误检查。如果你不使用这个特性,那么请记得检查所有系统调用的返回值。

****Unicode编码,IO层和文件模式****
在文件的操作模式上可以指定IO编码,这样就能在文件输入(输出)时自动进行解码(编码)。例如,如果你准备读取一个UTF-8编码的文件,可以这么做:

open my $in_fh, '<:encoding(UTF-8)', $infile;

向文件写入UTF-8编码的内容:

open my $out_fh, '>:encoding(UTF-8)', $outfile;

****双参数的open****
老代码经常能看到双参数的open(),文件操作模式和文件名会写在一起:

open my $fh, "> $some_file" or die "Cannot write to '$some_file': $!\n";

Perl会从第二个参数中提取出文件的操作模式。这里存在着安全风险,如果这个参数是外部输入的,那情况就会更糟。所以使用更加安全的三参数形式吧。

Perl还有一个全局文件句柄DATA,这个句柄在写简短的自包含数据的程序很有用。有兴趣的使用perldoc perldata来了解更多细节。

****读文件****
对于一个已经打开的用于读的文件句柄,可以使用readline来读取数据,它的行为和钻石操作符<>一样。一个常见的用法就是在while()循环中读取数据:

open my $fh, '<', 'some_file';
while (<$fh>)
{
chomp;
say "Read a line '$_'";
}

在标量语境中,readline读取文件中的一行,并且返回读取的内容;如果是文件结尾就返回undef(内部使用eof来判断是否是结尾)。下一次就迭代到下一行。上面的例子其实是下面这个的简化版:

open my $fh, '<', 'some_file';

while (defined($_ = <$fh>))
{
chomp;
say "Read a line '$_'";
last if eof $fh;
}

为什么是while而不是for
因为for是列表语境,列表语境下readline(或钻石操作符<>)会先读取整个文件的内容,然后再进行后续的处理;而在while中每次读取一行,会更省内存。

读取每一行时都会包含行尾标志,行尾标志根据平台有所不同,可能是\n,或者\r,或者\r\n。可以使用chomp来移除行尾标志。

通常读取文件的代码会类似这样:

open my $fh, '<', $filename;

while (my $line = <$fh>)
{
chomp $line;
...
}

默认情况下,Perl以文本模式操作文件。如果你要操作的是2进制数据(如媒体文件或压缩文件),请在执行任何IO操作前使用,binmode会强制Perl以纯数据方式处理,并且不做任何转换。(例如不会将原始换行符转换为当前平台的形式)

****写文件****
要往一个文件句柄里写内容,使用print或say:

open my $out_fh, '>', 'output_file.txt';

print $out_fh "Here's a line of text\n";
say $out_fh "... and here's another";

****要注意中间没有逗号,句柄和下一个操作数之间没有逗号。****

《Perl最佳实践》中建议:用大括号包围文件句柄可提高可读性。

****关闭文件****
文件使用完后应显式地关闭文件句柄(或者让它超出作用域),这样Perl就会关闭文件。显式的关闭文件句柄有助你检查代码和发现问题。

通常,可以使用autodie来帮助你做异常检查:

use autodie qw( open close );

open my $fh, '>', $file;
...
close $fh;

****特殊的文件句柄变量****
每读取一行,Perl就会增加变量$.的值,所以这个这个变量可以用来计数行数。

readline以变量$/的值作为行尾标志,通常我们不需要改变这个变量。但有时候为了达到一些神奇的效果,就需要改变$/的值。例如,如果一个文件的内容条目是以2个空行作为分割标志的,那么我们可以将$/设置为\n\n,这样就能每次读取一个条目,并且还能使用chomp操作来去除尾部的双空行。

Perl的输出默认会有缓冲行为,只有当数据量超过一定阀值时,才会执行IO。缓冲可以提高IO的性能,然而,有时候你也会需要禁止Perl的缓冲行为。变量$|控制着当前活动的文件句柄的缓冲行为,设置为非零值时,就会禁用缓冲行为。

自动刷新
文件默认是完全缓冲的策略。当STDOUT连接到活动终端而不是另一个程序时,使用的行缓冲策略,就是说Perl在每次遇到换行符时会刷新标准输出。

使用全局变量来控制缓冲行为可能不太合适,因为会影响到你的其他代码,所以更好的方法是,对词法变量句柄使用autoflush()方法:

open my $fh, '>', 'pecan.log';
$fh->autoflush( 1 );

IO::File提供的所有方法都可以在文件句柄上调用。(原因嘛,你知道的。)

目录和路径

目录的操作和文件类似,区别只是你不能写入目录。使用内置函数opendir来打开一个目录句柄:

opendir my $dirh, '/home/monkeytamer/tasks/';

使用readdir来读取目录,行为类似readline,可以每次迭代遍历目录,也可以一次性将所有内容赋值给数组:

# iteration
while (my $file = readdir $dirh)
{
...
}


# flatten into a list, assign to array
my @files = readdir $otherdirh;


#while循环中默认变量是$_
opendir my $dirh, 'tasks/circus/';

while (readdir $dirh)
{
next if /^\./;
say "Found a task $_!";
}

例子中那个正则表达式是用来跳过unix类系统中以点开头的文件和目录。(隐藏文件,当前和上级目录)

readdir返回的名字是相对目录自身来说的。也就是如果tasks/目录下有3个文件,eat、drink、be_monkey,那么readdir返回的就是eat、drink和be_monkey,而不是tasks/eat, tasks/drink和task/be_monkey。

关闭目录句柄,可以使用closedir,或者让它超出作用域。

****操作路径****
Perl提供和解析unix风格的路径,同时也会自动为你的操作系统或文件系统做转换。比如你使用的是windows,你就可以使用路径C:/My Documents/Robots/Bender/,效果和C:/My Documents/Robots/Bender/是一样的。

尽管Perl使用是unix的路径风格,但是也可以很容易通过使用模块来实现跨平台。核心模块File::Spec可以让你安全、可移植性的操作文件路径,而且还有着完善的文档。

CPAN的Path::Class模块有更友好的接口,dir()函数用来创建一个目录对象,file()函数用来创建一个文件对象:

use Path::Class;

my $meals = dir( 'tasks', 'cooking' );
my $file = file( 'tasks', 'health', 'robots.txt' );




my $lunch = $meals->file( 'veggie_calzone' );
my $robots_dir = $robot_list->dir;




my $dir_fh = $dir->open;
my $robots_fh = $robot_list->open( 'r' ) or die "Open failed: $!";

有兴趣的可以看看模块Path::Class和Path::Tiny。

文件操作

除了读、写文件,你还可以进行其他操作。文件测试操作符统称-X操作符,用来检测文件和目录的属性。要测试一个文件是否存在:

say 'Present!' if -e $filename;

-e操作符只有一个操作数,文件名或句柄(文件句柄,目录句柄)。如果文件存在,表达式为真,否则为假。perldoc -f -X会列出所有的测试操作符,常见的有:

-f 若操作数是纯文本文件则返回真
-d 若操作数是目录件则返回真
-r 若操作数文件对应当前用户可读则返回真
-s 若操作数不是一个空文件则返回真

可以查看操作符对应的文档,比如perldoc -f -r。

内置函数rename可以重命名一个文件或移动一个文件,它有2个操作数,文件旧的路径和新路径:

rename 'death_star.txt', 'carbon_sink.txt';

# or if you're stylish:
rename 'death_star.txt' => 'carbon_sink.txt';

Perl没有复制文件的内置函数,但是 File::Copy提供了copy() move()函数。内置函数unlink可以删除一个或多个文件。(注意:内置delete函数是用来删除一个哈希元素的,而不是用在文件系统上)这些函数都会在操作成功返回真值,出现错误时设置$!变量。

Perl会跟踪当前的工作目录,默认的是你启动程序的活动目录。核心模块Cwd模块的cwd()函数会返回当前工作目录。内置函数chdir可以改变当前工作目录。搞清楚当前工作目录是使用相对路径的基础。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容