Tesseract-OCR文字识别
放在前面 :本文主要参考了这篇 知乎专栏-Gemfield 时间有限,长话短说,主要是放一些资源,方便查找。 1.预处理 对于中文识别来说,不做预处理简直惨不忍睹。主要手段为 binarize and de-noise image; 高斯模糊之类的blur算法; 缩放图像(fix text size,e.g. 12 pt should be ok); 锐化(Sharpening effect); fix DPI (if needed) 300 DPI is minimum; try to fix illumination of image (e.g. no dark part of image); contrast, brightness... it tends to work best when there is just black & white, i.e. no greyscale; 去掉图片中无关的线条; 高对比度; 详细的 官方教程 再放一个有人制作的相关工具 textcleaner , 这里 有一小段介绍 2. 识别中文 下载中文语言包,简体中文的代号为chi_sim,每种语言在新时代的tesseract都应该有3种语言包:fast版、best版、raw版。fast版是考量了速度,并对准确度做了一定的妥协,apt安装的时候下载的语言包模型正是fast版