Faster R-CNN

百度云智峰会Workshop技术干货第1弹 ——文本目标检测实验介绍

大憨熊 提交于 2020-04-12 02:27:03
本文作者:HelloDeveloper 8 月29日下午,在热烈的气氛中,2019百度云智峰会在北京顺利举办。活动现场,百度开发者中心联手百度云智学院,为开发者及学生们,提供了展示自己的舞台,输出百度沉淀的优质技术。百度开发者中心(developer.baidu.com)专注于为开发者打造一个有温度的技术交流社区,一直伴随着中国开发者的成长,通过分享知识、交流。自成立以来,坚持为广大开发者提供优质服务。百度云智学院(abcxueyuan.baidu.com)作为百度对外知识赋能的平台,依托百度ABC战略,整合内外部优质教育培训资源,定义满足产业需求的人才标准和培训体系,以“AI引领未来,茁壮科技人才”为使命,致力于为ABC时代的人才培养、技术分享等问题提供全新的解决思路。 为了帮助大家更好地理解Workshop中亮相的6大技术,我们特将技术内容进行梳理总结,出品6篇技术干货文章,在近期于百度开发者中心公众号(ID:baidudev)上逐一分享给大家,请大家持续关注。以下是第一期内容《文本目标检测实验介绍》。 BML平台简介 BML是一款企业级的机器学习平台,提供一站式人工智能建模与推理预测服务。面向用户提供机器学习和深度学习服务能力,实现从数据集管理、数据预处理、数据源、模型训练,到模型管理、预测服务、服务监控等全AI工作周期的管理。平台提供交互式、拖拽式、任务式 等多种建模方式

【AI in 美团】 深度学习在OCR中的应用

二次信任 提交于 2020-03-27 17:59:38
3 月,跳不动了?>>> 背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类、目标检测和图像质量评价等方向。本文将通过以OCR(光学字符识别)的场景来介绍深度学习在计算机视觉中的应用。 基于深度学习的OCR 文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。OCR在美团业务中主要起着两方面作用。一方面是辅助录入,比如在移动支付环节通过对银行卡卡号的拍照识别以实现自动绑卡,辅助运营录入菜单中菜品信息,在配送环节通过对商家小票的识别以实现调度核单,如图1所示。另一方面是审核校验,比如在商家资质审核环节对商家上传的身份证、营业执照和餐饮许可证等证件照片进行信息提取和核验以确保该商家的合法性,机器过滤商家上单和用户评价环节产生的包含违禁词的图片。 <center>图1 图像中的文字提取和识别流程</center> OCR技术发展历程 传统的OCR基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习(Adaboost、SVM),过去20年间在印刷体和扫描文档上取得了不错的效果。传统的印刷体OCR解决方案整体流程如图2所示。

百度开源口罩检测项目,小编教你30分钟搞定模型训练

淺唱寂寞╮ 提交于 2020-03-26 21:08:28
3 月,跳不动了?>>> 史上最长春假结束,全国各地企业陆续复工。机场、火车站等地又将迎来人流高峰,我们对疫情防护仍然不能有所懈怠。如何实时检测人群口罩佩戴情况从而快速发现未按要求佩戴口罩的人,对于防疫工作来说,是个头大的问题。 目前AI人脸口罩检测方案已成为返工潮中众多社区、企业、商场解决该问题的首选方案,并得到了较好的应用。各大企业也积极为AI战“疫”做出贡献,百度开源了业界首个口罩人脸检测及分类模型,滴滴随后也免费开放了口罩佩戴识别技术。那么,它们是如何建立口罩检测模型的呢?其背后原理是什么?今天小编将为你揭开TensorFlow模型训练的秘密,让你看完本篇文章,就能学会自己训练模型。 知识点 TensorFlow™ 是一个采用数据流图(data flow graphs)对数值予以计算的开源软件库。数据流图根据“节点”(nodes)和“线”(edges)的有向图来描述数学计算。“节点” 一般表示施加的数学操作,但也可以代表数据输入(feed in)的起点/输出(push out)的终点,或者是读取/写入持久变量(persistent variable)的终点。“线”表示“节点”之间的输入/输出关系。这些数据“线”可以传递“size可动态调整”的多维数据数组,即“张量”(tensor)。一旦输入端的所有张量准备好,节点将被分配到各种计算设备完成异步并行运算。

快速上手百度大脑EasyDL专业版·物体检测模型(附代码)

谁说胖子不能爱 提交于 2020-03-23 19:31:52
3 月,跳不动了?>>> 作者:才能我浪费99 1. 简介: 1.1. 什么是EasyDL专业版 EasyDL专业版是EasyDL在2019年10月下旬全新推出的针对AI初学者或者AI专业工程师的企业用户及开发者推出的AI模型训练与服务平台,目前支持视觉及自然语言处理两大技术方向,内置百度海量数据训练的预训练模型,可灵活脚本调参,只需少量数据可达到优模型效果。 适用人群: 专业AI工程师且追求灵活、深度调参的企业或个人开发者 支持定制模型类型。 1.2. 支持视觉及自然语言处理两大技术方向: 视觉:支持图像分类及物体检测两类模型训练。 任务类型: 预置算法 图像分类: Resnet(50,101)、Se_Resnext(50,101)、Mobilenet Nasnet 物体检测: FasterRCNN、YoloV3、mobilenetSSD 自然语言处理:支持文本分类及短文本匹配两类模型训练,内置百度百亿级数据所训练出的预训练模型ENNIE. ERNIE(艾尼)是百度自研持续学习语义理解框架,该框架可持续学习海量数据中的知识。基于该框架的ERNIE2.0预训练模型,已累计学习10亿多知识,中英文效果全面领先,适用于各类NLP应用场景。 任务类型 :预置网络 文本分类: BOW、CNN、GRU、TextCNN、LSTM、BiLSTM 短文本匹配:SimNet(BOW、CNN、GRU

PyTorch TorchVision 目标检测网络微调

这一生的挚爱 提交于 2020-03-11 17:42:25
本文无配图,要查看详细配图内容,前去 http://studyai.com/pytorch-1.4/intermediate/torchvision_tutorial.html 在本教程中,我们将在 宾州复旦大学的行人检测和分割数据集 中微调 一个预先训练好的 Mask R-CNN 模型。 它包含170幅包含345个行人实例的图像,我们将用它来演示如何在torchvision中使用新特性,以便在自定义数据集上训练实例分割模型(instance segmentation model)。 定义数据集 用于训练对象检测、实例分割和人体关键点检测的参考脚本允许轻松支持添加新的自定义数据集。 数据集应继承标准 torch.utils.data.Dataset 类,并实现 len 和 getitem 。 我们需要的唯一特别条件是数据集类的 getitem 应该返回: image: 一个尺寸为 (H, W) 的 PIL 图像 target: 包含以下字段(field)的字典 boxes (FloatTensor[N, 4]): N 个边界框的坐标, 格式为 [x0, y0, x1, y1] , x 从 0 到 W , y 从 0 到 H labels (Int64Tensor[N]): 每一个边界框的标签 image_id (Int64Tensor[1]): 图像标识符.

EasyDL专业版服务介绍

喜夏-厌秋 提交于 2020-03-06 13:51:00
目录 专业版简介 专业版使用流程 专业版产品特性 专业版简介 EasyDL专业版 是EasyDL在2019年10月下旬全新推出的针对 AI初学者 或者 AI专业工程师 的企业用户及开发者推出的AI模型训练与服务平台,目前支持视觉及自然语言处理两大技术方向,内置百度海量数据训练的预训练模型,可灵活脚本调参,只需少量数据可达到优模型效果。 适用人群 专业AI工程师且追求灵活、深度调参的企业或个人开发者 支持定制模型类型 支持视觉及自然语言处理两大技术方向 视觉 :支持图像分类及物体检测两类模型训练 任务类型 预置算法 图像分类 Resnet(50,101)、Se_Resnext(50,101)、Mobilenet Nasnet 物体检测 FasterRCNN、YoloV3、mobilenetSSD 自然语言处理 :支持文本分类及短文本匹配两类模型训练,内置百度百亿级数据所训练出的预训练模型ENNIE. ERNIE(艾尼)是百度自研持续学习语义理解框架,该框架可持续学习海量数据中的知识。基于该框架的ERNIE2.0预训练模型,已累计学习10亿多知识,中英文效果全面领先,适用于各类NLP应用场景。 了解ERNIE 任务类型 预置网络 文本分类 BOW、CNN、GRU、TextCNN、LSTM、BiLSTM 短文本匹配 SimNet(BOW、CNN、GRU、LSTM)、FC 序列标注 CRF

百度AI攻略:EasyDL专业版攻略

僤鯓⒐⒋嵵緔 提交于 2020-01-09 17:35:41
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1、简介: 1.1 什么是EasyDL专业版 EasyDL专业版是EasyDL在2019年10月下旬全新推出的针对AI初学者或者AI专业工程师的企业用户及开发者推出的AI模型训练与服务平台,目前支持视觉及自然语言处理两大技术方向,内置百度海量数据训练的预训练模型,可灵活脚本调参,只需少量数据可达到优模型效果。 适用人群 专业AI工程师且追求灵活、深度调参的企业或个人开发者 支持定制模型类型 支持视觉及自然语言处理两大技术方向 视觉:支持图像分类及物体检测两类模型训练 任务类型 预置算法 图像分类 Resnet(50,101)、Se_Resnext(50,101)、Mobilenet Nasnet 物体检测 FasterRCNN、YoloV3、mobilenetSSD 自然语言处理:支持文本分类及短文本匹配两类模型训练,内置百度百亿级数据所训练出的预训练模型ENNIE. ERNIE(艾尼)是百度自研持续学习语义理解框架,该框架可持续学习海量数据中的知识。基于该框架的ERNIE2.0预训练模型,已累计学习10亿多知识,中英文效果全面领先,适用于各类NLP应用场景。 任务类型 预置网络 文本分类 BOW、CNN、GRU、TextCNN、LSTM、BiLSTM 短文本匹配 SimNet(BOW、CNN、GRU、LSTM