Tesseract OCR

深入学习Tesseract-ocr识别中文并训练字库的方法

倖福魔咒の 提交于 2019-11-29 04:10:48
上篇文章简单的学习了tesseract-ocr识别图片中的英文(链接地址如下: https://www.cnblogs.com/wj-1314/p/9428909.html ),看起来效果还不错,所以这篇文章继续深入学习tesseract-ocr识别图片中的中文。 一,准备中文字库   下载chi_sim.traindata字库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。(注意下载字库,一定要 看库对应的tesseract版本 下载) 为什么强调版本呢 ,小编这里讲自己做的愚蠢的事情附上,希望大家别入坑了。   上一篇学习Tesseract-ocr中,识别的是英文,然后小编下载了中文库,如下  不知道是什么原因,总是报错。报错如下:   我找了多种方法,包括重新安装库,配置环境变量,仍然没有解决问题,所以在这里,我又考虑到Tesseract的版本问题,所以打算重新最新版 w64-v4.0.0,继续试试。附上下载链接地址   下载Tesseract的地址: https://digi.bib.uni-mannheim.de/tesseract/   下载Tesseract-ocr包的地址: https://github.com/tesseract-ocr/tesseract/wiki/Data-Files