ocr文字识别

OCR识别PDF文件

我怕爱的太早我们不能终老 提交于 2020-03-12 07:25:35
1现有解析pdf的方法 使用org.apache.pdfbox读取pdf,只能读取pdf中的文字,有些纸件扫描成的pdf文字会错乱,有些字还是图片的方式显示的,导致读取的内容不全,常常会获取不到想要的数据。 2 OCR文字识别 pdf需要转换为图片,进行识别,识别率高。 2.1 调用百度接口 优点:识别率高,识别速度快 缺点:按次收费 2.2 使用开源工具读取pdf文档 2.2.1 下载工具包 https://github.com/tesseract-ocr/tessdata 下载chi_sim.traineddata,chi_sim_vert.traineddata 2.2.2 添加依赖 < dependencies > < dependency > < groupId > net . sourceforge . tess4j < / groupId > < artifactId > tess4j < / artifactId > < version > 4.4 .0 < / version > < / dependency > < / dependencies > 2.2.3 编写程序 import net . sourceforge . tess4j . Tesseract ; import net . sourceforge . tess4j .

Python - 开发截图识别OCR小工具

放肆的年华 提交于 2020-03-02 16:18:46
一、简介 你一定用过那种“OCR神器”,可以把图片中的文字提取出来,极大的提高工作效率。 今天,我们就来做一款实时截图识别的小工具。顾名思义,运行程序时,可以实时把你截出来的图片中的文字识别出来。 二、模块 import keyboard # 用于监控键盘按下,触发事件(pip install keyboard) import time from aip import AipOcr # 调用百度接口(pip install baidu-aip) from PIL import ImageGrab # 用于保存屏幕截图 三、获取百度应用接口 AI开放平台文档中心 https://ai.baidu.com/ai-doc 查看python语言的SDK文档 点击右上角(控制台),登录自己的百度账号,创建“文字识别”的应用 四、代码实现 #! /usr/bin/env python3 # -*- coding:utf-8 -*- # Author : MaYi # Blog : http://www.cnblogs.com/mayi0312/ # Date : 2020-03-02 # Name : test_ocr # Software : PyCharm # Note : 用Python开发截图识别OCR小工具 import keyboard # 用于监控键盘按下,触发事件(pip

【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)

China☆狼群 提交于 2020-03-01 09:12:18
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构。这次任务所使用的深度学习框架是强大的Tensorflow。 网络搭建 第一步当然是搭建网络和计算图 其实文字识别就是一个多分类任务,比如这个3755文字识别就是3755个类别的分类任务。我们定义的网络非常简单,基本就是LeNet的改进版,值得注意的是我们加入了batch normalization。另外我们的损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1 #network: conv2d->max_pool2d->conv2d->max_pool2d->conv2d->max_pool2d->conv2d->conv2d->max_pool2d->fully_connected->fully_connected def build

记一次百度OCR的使用

☆樱花仙子☆ 提交于 2020-01-30 16:58:43
title: 记一次百度OCR的使用 copyright: true tags: python abbrlink: 8d4a5af0 date: 2018-11-12 11:04:27 --- 恰巧用到了OCR批量识别,鉴于准确度没有使用在本地训练的TensorFlow-OCR,而是选择了百度OCR,可选的方式多种多样,比如Google文字识别,腾讯OCR等等,不一一列举 很简单的demo,参照开发文档 http://ai.baidu.com/docs#/OCR-Python-SDK/80d64770 先去控制台注册一个开发者账号,并创建一个文字识别应用,在管理应用中可以看到 AppID 等相关信息 安装SDK pip install baidu-aip 新建一个python文件 from aip import AipOcr from glob import glob from docx import Document import os import json """ 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) root_path = os.getcwd

UiPath-浅谈自带OCR

跟風遠走 提交于 2020-01-21 18:25:18
UiPath-浅谈自带OCR 缘起 常见形式 UiPath+本地引擎 限制 公众号 缘起 OCR ,全名Optical Character Recognition(光学字符识别),实现方法各家不同,从业务层面讲就是识别图片文字。有些朋友可能会感觉这技术是近几年才耳熟起来的,但实际上OCR是二战前就诞生的老家伙了,而且针对中文的OCR也是文革前就有人在搞的。多亏了现代发展的AI buff,这位老大哥的才渐渐崭露头角,这些年宣传的人尽皆知的支付宝扫福就是由机器学习技术支撑的超大型文字识别项目。感慨到此为止,下面简单讲讲OCR在RPA中的表现。 常见形式 国内宣传的最厉害的就是百度、阿里、讯飞、Abbyy这些个巨头,最常见的使用方法,就是利用网络请求把图片的数据传给他们的服务器,然后坐等识别结果。这个在UiPath里使用请求活动就可以在流程中实现 好处是图片识别功能的培训几位霸霸已经做好了,不需要占用太大的本地空间部署,可以不用指定识别目标,而且可以享受到AI buff,真香。 坏处嘛,信息稍微涉密都不要想用这种方法。 使用本地引擎,比如UiPath自身就可以使用微软、谷歌还有Tesseract的引擎;或者本地下载别的OCR产品,UiPath可以使用命令行去指挥。 好处首先就是安全,也不会受网络状况影响。 坏处就是需要相应的语言包,本地占地大一些,环境的配置会比较麻烦。而且,没有AI助攻

图像识别ocr 等经典项目

此生再无相见时 提交于 2020-01-11 16:23:07
看到不错的资料,刚好是自己需要的方面,先收集起来。 百度图像识别 初赛数据集 链接: https://pan.baidu.com/s/19cX6DH4fnQMd4S2_XH-l4w 密码: guc3 初赛和决赛代码 https://github.com/ypwhs/baiduyun_deeplearning_competition : 生成车牌号 链接:https://pan.baidu.com/s/1EySDV4VvxhoW44MUCy5FJw 密码:kmn0 识别模型代码 链接:https://pan.baidu.com/s/1D7zavSJfd-7ZPbFz5x5f_g 密码:hbgw : 图像分类 | 深度学习PK传统机器学习 https://github.com/aleju/imgaug 效果超某度OCR:文本检测、文本识别(cnn+ctc、crnn+ctc) https://github.com/MachineLP/OCR_repo#%E4%BB%A3%E7%A0%81%E4%BD%BF%E7%94%A8 : 基于深度学习的自然场景文字检测及端到端的OCR中文文字识别 https://github.com/xiaofengShi/CHINESE-OCR : 发票编号识别、验证码识别 ,图像分割 https://github.com/ccccccmd/ReCapcha

基于百度OCR的图片文字识别

冷暖自知 提交于 2020-01-11 00:19:04
   先上图,有图有真相   首先在百度开通ORC服务,目前是免费的,普通识别每天50000次免费,非常棒! 百度文档: http://ai.baidu.com/docs#/OCR-API/top   下载百度SDK神马的就不多说了,需要包含CURL和JSON库,注意版本要求   windows下的openssl 32位和64位一键安装包顺便分享下,自己安装太麻烦   链接:https://pan.baidu.com/s/1HAuplB3deQGFk2eO8zC13A   提取码:mh34   CURL和JSON库就不贴出来了,网上随便都能找到,需要的朋友可以找我,我私发给你。   接下来进入正题,贴代码: ImageRecogition.h 1 #pragma once 2 3 #include "json/json.h" 4 5 class CImageRecogition 6 { 7 public: 8 CImageRecogition(); 9 ~CImageRecogition(); 10 11 public: 12 /*accurate_basic*/ 13 Json::Value static accurate_basic(std::string szFile); 14 /*general_basic*/ 15 Json::Value static general

腾讯云OCR图片文字识别

走远了吗. 提交于 2019-12-28 20:56:52
一、 OCR OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程; -- 来自百度 二、腾讯云OCR 基于腾讯自研的深度学习技术和海量的数据,提供卡证、票据类印刷体和手写体、自定义模板等多种场景和类型的文字识别服务。 三、接口对接 说明:基于 spring boot 的接口对接 1、添加开发的SDK <dependency> <groupId>com.qcloud</groupId> <artifactId>qcloud-image-sdk</artifactId> <version>2.3.6</version> </dependency> 2、编写工具类 注意 :此接口对接版本有点低,现在的sdk是2.0了,不过这个工具类是可以正常食用的。2.0的sdk可以官方给出的文档 传送门 import com.qcloud.image.ImageClient; import com.qcloud.image.exception.AbstractImageException; import com.qcloud.image.request.*; import java.io.File; /** * 腾讯云Ocr文字识别 *

【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)

雨燕双飞 提交于 2019-12-26 12:03:12
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构。这次任务所使用的深度学习框架是强大的Tensorflow。 网络搭建 第一步当然是搭建网络和计算图 其实文字识别就是一个多分类任务,比如这个3755文字识别就是3755个类别的分类任务。我们定义的网络非常简单,基本就是LeNet的改进版,值得注意的是我们加入了batch normalization。另外我们的损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1 #network: conv2d->max_pool2d->conv2d->max_pool2d->conv2d->max_pool2d->conv2d->conv2d->max_pool2d->fully_connected->fully_connected def build

OCR目标识别

半城伤御伤魂 提交于 2019-12-11 00:37:20
先抱怨一句,识别真的比检测难很多呀,文字识别可根据待识别的文字特点采用不同的识别方法,一般分为定长文字、不定长文字两大类别。 定长文字: 定长字符识别中比较广泛的几个例子就是:MNIST识别,验证码识别,车牌识别。 MNIST: MNIST这个感觉实在是没啥说的,拿出一本深度学习入门书籍,可能实战篇就有这个项目,无论什么深度学习框架上网搜,都能搜出一大堆程序。 验证码识别: 验证码这一块,现成的代码也比较多了,文章这一块我参考了 https://my.oschina.net/u/876354/blog/3048523 ,代码这一块我参考了 https://github.com/nickliqian/cnn_captcha 。 车牌识别: 无,虽然现在车牌识别的产品已经很多了,但是网上基本没有开源的项目。我试过搜索一些论文和博客,感觉很多都是让你测效果,如何做出来的,网络结构这一块,没有找到,打开就是我做的车牌多准多准这样。 不定长文字识别: 不定长文字识别是目前OCR识别研究方向的主流,一些论文啥的也比较多,我做的不是这个方向,所以只是简单浏览了一下,看看有没有什么能用的,并没有深入调研,如果研究这个方向的可以参考这篇总结: https://github.com/hwalsuklee/awesome-deep-text-detection-recognition