计算机视觉

卷积神经网络(CNN)之一维卷积、二维卷积、三维卷积详解

怎甘沉沦 提交于 2021-02-10 22:51:33
作者:szx_spark 由于计算机视觉的大红大紫,二维卷积的用处范围最广。因此本文首先介绍二维卷积,之后再介绍一维卷积与三维卷积的具体流程,并描述其各自的具体应用。 1. 二维卷积 图中的输入的数据维度为$14\times 14$,过滤器大小为$5\times 5$,二者做卷积,输出的数据维度为$10\times 10$($14-5+1=10$)。如果你对卷积维度的计算不清楚,可以参考我之前的博客 吴恩达深度学习笔记(deeplearning.ai)之卷积神经网络(CNN)(上) 。 上述内容没有引入channel的概念,也可以说channel的数量为1。如果将二维卷积中输入的channel的数量变为3,即输入的数据维度变为($14\times 14\times 3$)。由于卷积操作中过滤器的channel数量必须与输入数据的channel数量 相同 ,过滤器大小也变为$5\times 5\times 3$。在卷积的过程中,过滤器与数据在channel方向分别卷积,之后将卷积后的数值相加,即执行$10\times 10$次3个数值相加的操作,最终输出的数据维度为$10\times 10$。 以上都是在过滤器数量为1的情况下所进行的讨论。如果将过滤器的数量增加至16,即16个大小为$10\times 10\times 3$的过滤器,最终输出的数据维度就变为$10\times 10

【杂谈】从CV小白到人脸表情识别专栏作者,我与有三AI的故事

。_饼干妹妹 提交于 2021-02-10 17:37:01
各位有三AI的读者朋友大家好呀~我是刚刚更新完结的【人脸表情识别】专栏的作者,一名仍然在读的研究生。在分享完我的专栏内容后,分享一下我这枚CV小白与有三 AI 的故事。 认识有三AI 我本科的专业是软件工程,因此较早的时候就开始追随学院中兴起人工智能“潮流”,申报了一个动作识别相关的课题项目。 而凭借着静茹姐给我的勇气,对AI,对CV一无所知的我,开始了从零开始的探索道路。 那个时候,身边没什么人带,跟几个小伙伴找很多资料,走了很多很多的坑。印象特别深的就是,看了很多知乎的回答,跑去看西瓜书、花书等“神书”。当然,这里并非想说西瓜书等不好,相反当你接触越多AI的知识,这些“殿堂级别”的书籍肯定能让你更上一层台阶。但是,我作为一个小白,看完之后还是不!会!敲!代!码!呀!!!(更别说里面的内容也只是看得似懂非懂)当然之后,还是一步一步完成了项目,实际效果嘛,因为是懵懵懂懂做出来的,就很一般。 快毕业的时候,因为需要结题、写小论文、写毕业论文,所以又重新向当年一样找资料,这个时候去看知乎的时候,就看到很多有三AI的回答,也看到了有三AI写的相关综述( 【技术综述】视频分类/行为识别研究综述,从数据集到方法 ),不过当时并未深入了解,只是在脑海里留下,有三AI是个回答得不错,写综述写得很好的个人/媒体,这算是我对有三AI最初的了解跟接触。 从深入了解到成为专栏作者 成为研究生之后

【AI in 美团】深度学习在OCR中的应用

心不动则不痛 提交于 2021-02-10 16:36:01
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。 基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人、多点实时智能配送调度系统;基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语音系统;基于AI技术,美团构建了世界上最大的菜品知识库,为200多万商家、3亿多件商品绘制了知识图谱,为2.5亿用户提供了精准的用户画像,并构建了世界上用户规模最大、复杂度最高的O2O智能推荐平台。 美团这个全球最大生活服务互联网平台的“大脑”是怎么构建的?从本周起,我们将连续发表“AI in 美团”系列文章,给大家全面揭开各项技术的内幕。 另外,业界第一部全面讲述互联网机器学习实践的图书《美团机器学习实践》也即将上市,敬请期待,本文选自书中第十五章。 背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类

Python和JavaScript——这两种流行的编程语言之间的主要区别是什么?

怎甘沉沦 提交于 2021-02-09 19:04:37
如果你想了解Python和JavaScript之间的区别,那么本文适合你。 这两种语言非常流行且功能强大,但是它们之间确实存在关键差异,我们将在这里详细介绍它们。 在本文中,你将学习: Python和JavaScript在现实世界中的不同应用。 Python和JavaScript之间关键的语法和功能差异。 让我们开始! ✨ Python VS JavaScript:实际应用 我们将从快速浏览它们的实际应用程序开始。 Python 由于其强大的功能和多功能性,Python已经成为世界上几乎每一个科学应用程序中必不可少的工具,它是一种支持不同编程范式的通用编程语言。 它广泛用于科学和专业应用,包括数据科学、人工智能、机器学习、计算机科学教育、计算机视觉和图像处理、医学、生物学甚至天文学。 它还用于Web开发,这是我们可以开始将其应用程序与JavaScript应用程序进行比较的地方。Python用于后端开发,这是Web开发领域,负责创建用户看不见的元素,例如应用程序的服务器端。 JavaScript 尽管可以使用Python开发Web应用程序的后端部分,但是可以使用JavaScript开发应用程序的后端和前端。 前端是用户看到并与之交互的应用程序部分。每当你看到网站或Web应用程序或与之交互时,即在“幕后”使用JavaScript。 同样,当你与移动应用程序进行交互时

从零开始学Pytorch(零)之安装Pytorch

时光毁灭记忆、已成空白 提交于 2021-02-08 08:47:09
点击上方“ 计算机视觉cv ”即可“进入公众号” 重磅干货第一时间送达 Pytorch优势   聊聊为什么使用Pytorch,个人觉得Pytorch比Tensorflow对新手更为友善,而且现在Pytorch在学术界使用的得更多,大有逆袭Tensorflow之势。最近两年的顶会文章中,代码用Pytorch的比Tensorflow多。大家如果对Tensorflow也感兴趣,完全可以学习了Pytorch之后继续学习Tensorflow,基本原理都是相通的。让我们开始开启愉快的Pytorch学习之旅吧! 在Ubuntu系统或是windows系统安装Pytorch   首先打开Pytorch的官网:https://pytorch.org/。在首页我们可以看到有各种配置可选,我们这里选择CPU或是GPU的版本都可以。一般选择GPU版本的Pytorch,这样运行大型的程序速度会快很多。而要运行GPU的Pytorch,就需要在电脑(不管是Ubuntu系统还是windows系统)安装相应的CUDA9和cudnn7,这两个安装起来有时候会遇到一大堆问题,所以需要一步一步解决。推荐一个我写的在Ubuntu系统安装教程的博客,按照博客上写的一步步来就可以啦。 博客链接:https://blog.csdn.net/xiewenrui1996/article/details/102736238 。  

【论文介绍】MEAL V2

拜拜、爱过 提交于 2021-02-08 08:25:38
作者:Stan Kriventsov 编译:ronghuaiyang 转载自:AI公园 原文链接: https://mp.weixin.qq.com/s/001DpmGeapE3HECzFPVvEw ​ mp.weixin.qq.com 导读 一篇知识蒸馏+对抗训练的文章。 作者使用最近提出的MEAL技术(包括从多个大型老师网络使用蒸馏通过对抗学习得到更小的学生网络学习),使用224×224输入,在ImageNet上提升了ResNet-50的精度到80.67%, 没有外部训练数据和网络体系结构的修改。 从文章中我们能学到什么? 即使是一个相对较小的网络也可以通过训练用正确的方法达到大得多的网络的准确性。 在某种程度上,这并不奇怪,因为现代深层神经网络被设计成过参数化的,利用“彩票假说”描述的大量的随机初始化配置,一个更小的网络足以达到同样的性能,但是,在实践中可以实现还是非常了不起的。 先决条件(为了更好地理解论文,我们应该熟悉什么?) 知识蒸馏 对抗训练 讨论 集成技术,或集成学习,由多个ML模型的组合预测组成,是一种已知的提高预测精度的方法。它被广泛应用于Kaggle竞赛中,在这些竞赛中,即使以巨大的计算负载为代价,也要获得最佳的精度。然而,在大多数实际应用中,由于在预测期间运行每个模型所需的费用和时间,集成并不被广泛使用。 MEAL技术的想法,是从多个大型神经网络(教师

来了来了!一份NLP&ML领域中文综述总结~

本小妞迷上赌 提交于 2021-02-07 12:22:35
转载自 | helloworldlh 原文链接: 来了来了!一份NLP&ML领域中文综述总结~ ​ mp.weixin.qq.com 综述类论文是指就某一时间内,针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。 对初学者而言,综述类文章可以便于读者在研究初期尽快掌握该方向的发展趋势。对综述类文章的搜索与阅读也因此成为了初学者进入相关研究领域前面临的第一个问题。 针对这一需要,东北大学自然语言处理实验室对自然语言处理领域与机器学习领域的中文综述类文章进行了收集和分类整理。将其按照不同研究领域进行分类,并提供了论文的获取网址,方便初学者获取相应领域的综述文章。 项目地址: https:// github.com/NiuTrans/CNS urvey 论文来源 在该项目中,所有文章均来源于《中文信息学报》、《计算机学报》、《软件学报》、《自动化学报》、《电子学报》、《计算机研究与发展》、《中国科学:信息科学》七个期刊。 共包含 251 篇综述文章,其中自然语言处理领域 145 篇,机器学习领域 106 篇,覆盖了各个期刊 电子化至今 的所有文章。 按照不同分类,项目中给出了各个文章的来源、年份、下载地址以及作者信息,如下图示例: 论文分类 为了方便使用者快速定位到自己想要了解的综述文章,项目根据各个研究领域对自然语言处理和机器学习分别进行了分类

英超引入 AI 球探,寻找下一个足球巨星

徘徊边缘 提交于 2021-02-07 12:14:31
作者 | 神经小兮 来源 | HyperAI超神经 头图 | 下载于视觉中国 球探对于很多人来说是一个略显神秘的群体,他们对一个球队的建设和发展至关重要。为了提高球探的工作效率,英超伯恩利足球俱乐部最近启用了 AI 球探。 关键词: AI 球探 计算机视觉 姿态识别 最近,中国足球运动员李嗣镕,与荷兰海牙足球俱乐部签下职业合同,这一消息很快登上微博热搜,但他上热搜的原因竟是因为:太帅了。 李嗣镕今年 18 岁,是一个「球二代」, 父亲是前中国国家队国脚李明 虽然因为帅而火出圈,但李嗣镕实际上是集高颜值与实力于一身。7 岁开始练球,12 岁进入海牙俱乐部青训系统,并被俱乐部 CEO 哈姆迪看好,认为他「将来可以去英超赛场闯荡」。 在众多年轻球员中,还隐藏着更多李嗣镕这样的潜力股,他们如何才能被发现?这还要从足球圈内一个特殊的职业说起。 独具慧眼的球探,发现明日之星 在各大联赛足球俱乐部,除了教练、球员以及管理人员外,还有一个职位至关重要,那就是球探。 球探的职责,就是在全球各地大大小小的比赛中,发现天赋过人的年轻球员,并把他们推荐给教练。 对于很多天才球员来说,球探无异于发现千里马的伯乐。 贝克汉姆: 他在 11 岁那年的一场少年队比赛中,因为抢眼的表现,被曼联著名球探马尔科姆·费吉恩相中,之后很快收到曼联的邀请函; 梅西: 在 13 岁时被巴塞罗那球探雷克萨奇发现并签约; 罗纳尔多

我是如何在3个月内写出博士论文的?

做~自己de王妃 提交于 2021-02-07 11:33:35
来源 | 极市平台 转载自:机器学习算法与自然语言处理 原文链接: 我是如何在3个月内写出博士论文的? ​ mp.weixin.qq.com 在看这篇文章之前请注意:我的博士论文花了我三年半的全职研究时间来收集数据,本文所指的三个月只是用于写作的时间,在该时间段的最后我写得很快。我并不是说每个人都能写得那么快,如果你没有做过研究,那就不可能写出来。你可能不会像我一样写得那么快,但你可能会从我的方法中得到一些有益的启示。 2006年夏天,在开始攻读博士学位近3年后,我想到放弃。原来,当时我的成果远远不够,我所使用的设备大部分时间都不起作用,我几乎无法在早晨唤起起床的动力。一年多以后有了折转,我成功做到了:扭转局面,获得了一些可发表少数几篇论文的结果;在3个月内从零开始完成我的博士论文;无争议地通过我的口头答辩。而且,最重要的是,我居然开始享受这个过程。我是怎么做到这一切的? 1.应对压力—— Dealing with stress 在经历了一次近乎崩溃的经历后,当我在研究中遇到问题或者发现自己压力大的时候,我就会开始在校园里散步。我花时间思考自己需要做什么,让自己有一个正确的心态回过头来处理问题。以前我发现我自己会处于一种为了熬过一天而在网上浪费时间的境地。这一个习惯的改变可能挽救了我的博士生涯。 2.放慢速度——Slowing down 这似乎有悖于直觉,但放慢速度有助于我走得更快

综述:关系抽取,挑战与机遇并存!

北城余情 提交于 2021-02-07 09:27:39
原创:Elesdspline 转载自:AI自然语言处理与知识图谱 原文链接: 综述:关系抽取,挑战与机遇并存! ​ mp.weixin.qq.com 关系抽取是信息抽取的基本任务之一,目的是识别文本中实体的目标关系,关系抽取对于知识库的构建以及文本的理解十分重要,特别有利于自然语言处理的一些任务,如问答,文本理解等,而且,关系抽取作为知识图谱构建的核心关键,是必不可少的步骤。 大家熟知的传统关系抽取(二元关于抽取,两个实体之间的关系)已经得到了广泛的研究,并且有很多的研究方法已经落地实践,近些年来,对于复杂场景的变化,传统的简单关系抽取已经无法满足实际场景中的复杂应用,慢慢衍生出需要复杂场景的关系抽取任务。 本文是一篇综述文章,总结了目前简单关系抽取的研究进展以及实践方法,对目前已出现的复杂关系抽取任务进行了总结,并介绍了每个任务的定义、最新进展、挑战和机遇。 一、简单关系抽取 简单的关系抽取目的是从文本中识别两个实体之间的关系,例如下图,根据文本,识别出北京和中国的关系为 the capital of,一般这样的关系抽取称之为二元关系抽取( Binary Relation Extraction,BiRE)。 简单关系抽取 目前的方法一般分为 基于监督学习的 BiRE(Supervised BiRE) 、 基于半监督学习的 BiRE(Semi-supervised BiRE) 以及