OCR识别PDF文件
1现有解析pdf的方法 使用org.apache.pdfbox读取pdf,只能读取pdf中的文字,有些纸件扫描成的pdf文字会错乱,有些字还是图片的方式显示的,导致读取的内容不全,常常会获取不到想要的数据。 2 OCR文字识别 pdf需要转换为图片,进行识别,识别率高。 2.1 调用百度接口 优点:识别率高,识别速度快 缺点:按次收费 2.2 使用开源工具读取pdf文档 2.2.1 下载工具包 https://github.com/tesseract-ocr/tessdata 下载chi_sim.traineddata,chi_sim_vert.traineddata 2.2.2 添加依赖 < dependencies > < dependency > < groupId > net . sourceforge . tess4j < / groupId > < artifactId > tess4j < / artifactId > < version > 4.4 .0 < / version > < / dependency > < / dependencies > 2.2.3 编写程序 import net . sourceforge . tess4j . Tesseract ; import net . sourceforge . tess4j .