白领一族经常需要把纸质文件转换成可编辑的word文档,有时时间紧,实在来不及手动敲键盘,那么OCR就是非常有必要的。OCR是Optical Character Recognition(光学字符识别)的缩写。读了本文,你就几乎可以从零开始学会如何把纸质文档转换为Word文档。
一、用手机或相机拍摄纸质文档的照片
这一步没什么技术含量,但注意最好自然光下拍摄,不要有阴影,不要让纸面反光,不要手抖,还要尽量保证文件平整。
二、用Photoshop处理照片
这一步需要一点Photoshop技术。如果照片拍摄得好其实可以略过这一步,但我的经验是用Photoshop处理过之后识别的准确率更高,所以如果会用Photoshop最好处理一下。具体处理内容是:
裁剪去掉无关紧要的页眉、页脚、页码、插图等。旋转并对正照片,调节色阶、亮度使文字和空白部分反差更大,把扭曲的照片调节平整。另外分栏的文件最好把两栏裁剪开分别识别,以免格式混乱。
这里我用《社会主义核心价值观五讲》做例子个大家展示一下如何操作。
首先用手机拍照如下。
用Photoshop简单处理后如下。
三、下载软件
首先介绍一下我用的软件,ABBYY FineReader。这款软件很强大,可以读取多种格式的图片和pdf文档,可以识别多种语言包括繁体中文、简体中文和英文,而且横放或者倒放的图片也可以自动识别好。下载请访问www.dayanzai.me,免费、免安装,百度云下载很快。为了表示对网站作者的尊敬我就不直接给百度云链接了,请各位访问支持他一下。这个网站上有很多常用办公软件,包括全套的Adobe Creative Cloud和Microsoft Office。
四、打开软件并简单设置
打开软件后的欢迎页面如图。
红框1是选择输出格式的,既然我们要把图片转换成文字所以要选择Microsoft Word,然后红框2是红框1的子选项,Scan to Microsoft Word是从扫描仪转换为Word,Image or PDF File to Microsoft Word是把图片或者PDF转换为Word,Photo to Microsoft Word是把图片转换为Word。所以我们选择第二个和第三个都可以。
红框3是选择语言和颜色模式的,语言选择Chinese Simplified and English(简体中文和英文),颜色模式选择黑白就可以。拍摄照片时颜色很容易失真,所以即使你想导出彩色文档也最好在这里选择黑白模式然后手动调节颜色。
红框4是输出格式,Plain text就是纯文本TXT格式,即除去一切字体、字号、颜色、行间距等格式。因为识别出的格式往往比较混乱,所以不如输出纯文本格式然后手动调节格式。
五、文字识别
在红框2里选择好单击之后就可以在弹出的窗口里选择需要识别的图片了。可以一下选择多张,但要注意顺序。选好图片之后软件就会开始自动识别。
最上面的一栏图标是选项设置,一般用不到,注意的是红框中最好选择send to Microsoft Word,就是把识别后的文字输出到Microsoft Word里。注意是“输出”而不是“保存”,需要自己手动保存一下才能生成Word文档。
继续用《社会主义核心价值观五讲》做例子,识别后输出到Word的文件如图。可以看到文字和标点相当准确很少有错误,分段和换行也能区别开来。最大的缺点是原文中所有的换行在输出文件中都莫名其妙多了一个空格,如红框所示。
六、后期处理
这时我们只需要改改错字,调整页面设置、字体、字号、字符颜色、行间距等等就大功告成了。对于莫名其妙多出来的空格,在Word中用“替换”功能删除所有空格即可。
谢谢观赏!如果你有更好的文字识别方法也请在下面留言告知我。