Tess4J字库训练
- 首先准备好你的图片
- 使用VietOCR或者jTessBoxEditorFX生成tif文件
找到你的VietOCR或者jTessBoxEditorFX目录,双击
.bat
文件运行
强调一下文件格式
- 格式:
[语言].[名称].exp[数字].tif
-
[语言]
必须是在Tesseract-OCR/tessdata
目录下存在的,当它生成tif
文件会用这里面的语言包去识别,所以你要确保你的语言前缀是正确的! -
[名称]
是你自定义的名称,整个训练完成后这就是你自己的语言包前缀啦! -
[数字]
随便带一个1就行,没什么用,不过你可以当作你的版本号做个标识。
-
然后继续
- 生成
.box
文件
例如:tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox
然后矫正你的字符:
矫正完毕后切记!!!要保存!!
点那个save
按钮!!!
[00]生成
.tr
文件
格式:tesseract [fileName.tif] [fileName] nobatch box.train
例如:tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train
注意:第一个是要执行的文件eng.jxbocr.exp1.tif
第二个是要生成的.tr
文件名称,必须和要执行的文件名称保持一致,但是后缀不加,比如上面我的第二个参数eng.jxbocr.exp1
。
[01]生成
unicharset
文件
格式:unicharset_extractor [文件名].box
例如:unicharset_extractor eng.jxbocr.exp1.box
[02]新建
font_properties.txt
文件
写入:jxbocr 0 0 0 0 0
表示:使用默认的字体,然后保存这个文本呢
注意:jxbocr
是你上面文件名eng.jxbocr.exp1.tif
的第二个字段
[03]生成
shapetable
文件
格式:shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如:shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr
[04]生成
pffmtable
和inttemp
文件
格式:mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如:mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr
[05]生成
normproto
文件
格式:cntraining [文件名].tr
例如:cntraining eng.jxbocr.exp1.tr
[05]加上统一的前缀
前缀就是你的文件eng.jxbocr.exp1
第二个字段jxbocr.
,然后就是这个样子:
[06]生成
traineddata
文件
格式:combine_tessdata [第二字段]
例如:combine_tessdata jxbocr.
OK,训练完成!把你的语言包放到Tesseract-OCR/tessdata
目录下,然后你可以测试识别一下,嘿嘿。