ocr文字识别

RPA中房产证的 OCR 识别

限于喜欢 提交于 2019-12-05 19:16:19
  客户需求,识别一些证件内容,包括身份证、户口本、营业执照、银行卡以及房产证,前四个比较容易实现,不管是艺赛旗的 RPA 还是百度的 OCR 都有接口,直接调用即可,但是都没有房产证的 OCR 识别,只能自己使用其他 OCR 接口来进行相关操作了。   房产证如下图所示:      如果使用通用文字识别所有的文字都可以识别出来,但是顺序是乱的,所以我选择了使用通用文字识别(高精度含位置版),这样的话,我不仅可以识别到文字,还能知道文字所在的位置,然后根据文字位置进行区域划分,划分后的效果如下:      代码如下:   import base64   import copy   import re   import requests   class OCR(object):   # client_id 为官网获取的AK, client_secret 为官网获取的SK   client_id = ""   client_secret = ""   def get_token(self):   """获取 access_token"""   host = 'https://aip.baidubce.com/oauth/2.0/token'   # 请求头   headers = {'Content-Type': 'application/json; charset=UTF-8'}  

ocr识别开源软件tesseract试用记录

这一生的挚爱 提交于 2019-12-04 13:43:35
针对公司系统现场查验场景中,需要用到拍照识别并查验证件信息的需求。对其中关键的ocr开源软件tesseract技术进行了简单试用记录。 1、新建一个winform测试项目,通过nuget搜索安装tesseract的sdk。 2、去github下载语言包: https://github.com/tesseract-ocr/tessdata ,分各种语言,下载英文(eng.traineddata)以及中文(chi_sim.traineddata)的,下载完成后放到测试项目的\debug\tessdata目录下,注意只能是tessdata目录,名字不能错。 3、代码如下: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using Tesseract; namespace TestOCR { public partial class Form1 : Form { public

机器学习笔记(十一)OCR技术的应用

。_饼干妹妹 提交于 2019-12-03 03:54:42
1、介绍OCR: OCR(Photo optical character recognition 照片光学字符识别) 应用于读取电子照片中的文字. 2、算法思路: ① 识别文字区域; ② 字符切分: ③ 识别字符: 3、Sliding windows(滑动窗): (1)在行人检测中的使用: ① 由于行人拥有相近的宽高比,算法中可以设置相同的比值,如 80*40. 使用监督学习的方法,判定块中是否含有行人. ② 在图片中移动滑动窗,每次都进行判断是否含有行人,每次移动若干像素点. 选的滑动窗尺寸限制了可识别的行人的大小. 可以适当增大滑动窗的尺寸,以识别出更多的行人,但是把图片输入分类器时需要调整回统一的尺寸. (2)在OCR中的应用: ① 选择训练集: ② 找出文字区域:采用不同的灰度表示可能性,白色的可能性最高,灰色的可能性较低. ③ 使用 expansion operator(展开器): 判断图像中每一个像素点是否在白色像素点的5~10个像素范围之内,若是,则设置为白色. ④ 筛选掉过于小的可能文字区域: ⑤ 字符分割:训练一个分类器,对两种图片块进行分类,可以分割的块设为 y = 1,否则设置为 y = 0. 若是y = 1,则进行分割,分割过程:把这根竖线看作一维的滑动窗,左右移动判断是否分割成功. 分类器训练集: 分割过程: ⑥ 使用监督学习识别分割出的字符. 来源:

OCR-端到端检测识别

匿名 (未验证) 提交于 2019-12-03 00:22:01
作者和相关链接 方法概括 方法细节 实验结果 总结与收获点 参考文献和链接 作者 论文下载 代码下载 方法概括 方法概述 该方法将文字检测和识别整合到一个端到端的网络中。检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长特征序列,再使用RNN+CTC进行识别。 文章亮点 检测+识别在一个网络中端到端训练 速度很快(100ms/每张图,注意是检测+识别!) 主要流程 如上图,整个端到端识别分为四步: 检测:用去掉全连接层的YOLOv2框架进行fcn+RPN,得到候选文字区域 双线性采样(实际上是一个Spatial Transform module):将大小不同的文字区域统一特征映射为高度一致宽度变长的特征序列 识别:将特征序列用rnn得到概率矩阵(带recurrent的fcn),再接CTC得到识别字符串 方法细节 检测的FCN网络 最后输出的feature map是:W/32 * H/32 * 1024 Region Proposals 采用类似于RPN的anchor机制 这个怎么加入loss? ) 每个anchor点有14个anchor box,这14个anchor box的scale、aspects( angle范围怎么设? )通过在训练集上用k-means聚类得到 正负样本选择:IOU最大为正anchor box,其他均为负样本( 合理吗? )

身份证OCR API接口,准确率99%,免费使用

匿名 (未验证) 提交于 2019-12-02 23:42:01
身份证OCR API接口 接入说明 身份证OCR API接口服务提供准确的身份证识别服务,识别率99%,免费使用。 本服务可用作图像打标签,文字识别技术研究,图像识别技术研究等用途. 1)支持类型 中国居民身份证.少数民族身份证,手持身份证等 接入文档 链接 2)身份证识别解决方案 基于人工智能和大数据 功能强大的身份证识别服务,识别率99%,免费使用。 立即试用 加QQ群交流 文章来源: https://blog.csdn.net/okliujieko/article/details/91583776

OCR文字识别软件找不到_FRBatch.pac的问题该如何处理

笑着哭i 提交于 2019-11-30 07:32:25
ABBYY Screenshot Reader是 ABBYY FineReader 12 OCR文字识别软件中自带的一个插件,通常情况下与ABBYY FineReader 12一起安装到计算机中,它是一款易于使用的智能型应用程序,可以从屏幕上的任何区域抓取图像和文本这两类屏幕截图,特殊情况下起着不可或缺的作用,在使用ABBYY Screenshot Reader的过程中,有时运行杀毒软件,会弹出‘找不到C:\Users\%用户名%\AppData\Local\Temp\Fine.SSR12\SSR_{BB2F11 AO-21 FA-4507-AEAC-82ADC9637A7C}\_FRBatch.pac’的错误信息,这是怎么回事呢?本文具体给大家讲解并解决这一问题。 问题描述: 莫名弹出:找不到C:\Users\%用户名%\AppData\Local\Temp\Fine.SSR12\SSR_{BB2F11 AO-21 FA-4507-AEAC-82ADC9637A7C}\_FRBatch.pac的错误信息。 注意:有些文件夹名称取决于ABBYY Screenshot Reader的版本,且会因此而有所不同。 原因分析: _FRBatch.pac文件如果从文件夹中删除,就会出现这种错误提示,这种情况可能由安装在电脑里的第三方软件(注册表清理工具、杀毒软件等)引起。 解决方法:

首场百度大脑开放日来袭 | 全新开放24项AI技术

寵の児 提交于 2019-11-26 18:45:54
活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库:新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升:大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN

首场百度大脑开放日来袭 | 全新开放24项AI技术

别说谁变了你拦得住时间么 提交于 2019-11-26 18:45:44
活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库:新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升:大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN