python使用tesseract-ocr完成验证码识别(模型训练和使用部分)
一、Tesseract训练 大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中 1、用jTessBoxEditor把要训练样本图片文件合并成tif文件(样本图片一定要为有效的格式图片) 运行jTessBoxEditor程序,界面如下: 点击顶栏的Tools选项,选择Merge TIFF.. 进入你要训练的样本图片所在的目录,点击Ctrl+Alt+A,选择所有图片点击打开: 然后保存文件名到指定目录,我这里保存的文件名为: langyp.font.exp0.tif 2、生成Box文件 打开cmd,到你langyp.font.exp0.tif文件所在目录,执行: tesseract langyp.font.exp0.tif langyp.font.exp0 batch.nochop makebox 结果生成了 langyp.font.exp0.box 文件 3、 对样本图片用jTessBoxEditor工具进行矫正 点击jTessBoxEditor工具的Box Editor选项,点击下方的open选项,打开刚刚生成的langyp.font.exp0.tif文件,结果如下: 右侧为对应的Box文件数据