计算机视觉

亮点抢先看 | 旷视科技11篇 ICCV 2019 论文概览

流过昼夜 提交于 2021-02-02 02:09:12
点击 我爱计算机视觉 标星,更快获取CVML新技术 本文转载自旷视研究院(megviir)。 ICCV 2019 论文如期发榜,旷视科技共有11篇论文被录取,涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人及车辆再识别、模型压缩、度量学习、强化学习、元学习等众多领域。 本文把 11 篇论文汇在一起,逐篇做了亮点抢先解读。 1、论文名称: Objects365: A Large-scale, High-quality Dataset for Object Detection 论文链接:暂无 开源链接:https://www.objects365.org/overview.html 关键词:物体检测、数据集 在本文中,我们介绍了一个新的大型物体检测数据集Objects365,它有超过60万张图片,365个类别,超过1000万个高质量的边界框。 由精心设计的三步注释管道手动标记,它是迄今为止最大的物体检测数据集(带有完整注释),并为社区建立了更具挑战性的基准。 Objects365可以作为更好的特征学习数据集,用于目标检测和分割等定位敏感任务。Objects365预训练模型明显优于ImageNet预训练模型:在COCO上训练90K / 540K次迭代时AP提高了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。 同时

经典神经网络 | Faster R-CNN 论文解析

喜欢而已 提交于 2021-02-01 11:29:08
点击上方“ 计算机视觉cv ”即可“进入公众号” 重磅干货第一时间送达 论文题目:Faster R-CNN: T owards Real-Time Object Detection with Region Proposal Networks 论文链接:https://arxiv.org/abs/1506.01497 作者及单位 研究目标 Faster R-CNN是为了改进Fast R-CNN而提出来的。因为在Fast R-CNN文章中的测试时间是不包括search selective时间的,而在测试时很大的一部分时间要耗费在候选区域的提取上。所以作者提出了 RPN 来提取候选框,使时间大大的减少了。 Faster R—CNN网络介绍 Faster R—CNN结构 Faster R—CNN具体可分为四个结构: Conv layers:作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的 feature maps 。该feature maps被共享用于后续RPN层和全连接层。 Region Proposal Networks:RPN网络用于生成region proposals。该层通过softmax判断anchors属于 positive或者 negative,再利用bounding box

使用谷歌Colab Notebooks,这6个小技巧你需要掌握

允我心安 提交于 2021-01-31 11:11:27
选自Medium 作者:Iden W.机器之心编译 编辑:陈萍、杜伟 转载自: 机器之心 原文链接: 使用谷歌Colab Notebooks,这6个小技巧你需要掌握 ​ mp.weixin.qq.com 切换暗黑模式、读取 CSV 文件… 这些非常实用的小技巧为开发者使用谷歌 Colab Notebooks 提供了便利。 Google Colab 给广大的 AI 爱好者和开发者提供了免费的 GPU,他们可以在上面轻松地跑 Tensorflow、PyTorch 等深度学习框架。特别地,Colab 实时 Notebooks 在数据共享方面为广大开发者提供了便利,通过链接即可与其他的开发者共享文件。 在本文中,数据科学家 Iden W. 为读者详细地介绍了使用 Google Colab Notebooks 的小技巧,主要包括以下几个方面: 切换暗黑模式 读取 CSV 文件 栈溢出的快捷方式 启动内核 提交至 GitHub 存储库并共享 分享 Google Colab Notebooks 切换暗黑模式 如果开发者想使用 Google Colab 的暗黑模式,请点击「Tools」选项卡,然后按照下图所示的步骤进行设置。 在「settings」中,你可以单击「Site」菜单,然后选择「dark」功能,单击保存。操作完成后即可切换暗黑模式。 读取 CSV 文件 从 Google Drive

两种端到端通用目标检测方法

自古美人都是妖i 提交于 2021-01-30 12:35:59
摘要: 本文介绍两种端到端训练通用目标检测算法--DETR和DeFCN。 通用目标检测作为计算机视觉中一个基础的任务,对着图像理解、信息提取有着极为重要的意义。对于该任务目前已经发展出了许多方法,如基于全卷积的单阶段方法DenseBox,YOLO,SSD, RetinaNet和CenterNet等,以及更加复杂的多阶段方法RCNN, Fast RCNN, Faster RCNN和 Cascade RCNN等。根据目标检测任务的定义,这些方法需要对图像中出现的目标物体进行定位和分类,为了确保目标的召回率,结合卷积神经网络的采用的滑动窗口预测的特性,上述的方法均使用卷积进行密集的候选区提取和目标预测,因此对于输入的每个目标,往往有多个网络预测值相对应。 这些方法通常使用非极大值抑制方法(NMS)对重复的预测结果进行过滤,从而得到最终预测结果。不同于卷积操作,NMS过程不可导,模型无法对去重的过程进行优化,最终的检测检测模型也由于该操作的存在不能做到完全端到端。 通用目标检测近期的一些进展中,一些方法实现了端到端训练,训练和推理均无需NMS操作。如基于Transformer的DETR[1]和全卷积DeFCN[2], 两种方法采用了较为不同的实现路线,分别具有不同的优势和潜力,下面对这两种方法进行介绍。 DETR Transformer在自然语言处理任务中取得了巨大的成功

Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播

走远了吗. 提交于 2021-01-30 11:53:00
来源 | 数据实战派 转载自:AI科技评论 原文链接: Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播 ​ mp.weixin.qq.com Geoff Hinton 是公认的深度学习先驱。2018 年,他与 Yoshua Bengio、Yann LeCun 共同获得了图灵奖。而在这之前的一年,他提出了一个想法 —— 胶囊网络(Capsule Network)。这是卷积神经网络的替代方案,它考虑了物体在 3D 世界中的姿势,尝试弥补当今计算机视觉模型学习能力上的不足,比如学会从不同的角度来识别同一个物体。 从那之后, Hinton 在学术界的公开活动有所沉寂。直到2020 年 12 月,在 NeurIPS 上,他的团队介绍了一项堆叠式胶囊自动编码器(stacked capsule autoencoders)相关的研究成果。更早之前 2 月的 AAAI 会议上,他谈到,胶囊网络是无监督学习的关键。4 月,Hinton 又重新提出了将反向传播作为人类大脑中的一种学习功能,并介绍了近似反向传播的算法 ——用活动差异表示神经梯度(neural gradient representation by activity differences,简称 NGRAD)。 近日,在播客节目 Eye on AI 中,受到播客主理人、纽约时报资深记者 Craig Smith 的邀请

我们为什么需要条件随机场CRF?

和自甴很熟 提交于 2021-01-30 09:56:21
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作 者: Prateek Joshi 编译: ronghuaiyang 导读 昨天给大家介绍了CRF的基本概念,今天我们聊一聊为什么需要这么个东西。 这是一个分为两部分的讨论。在这篇博文中,我们将讨论条件随机场的需求。在下一篇文章中,我们将讨论它们到底是什么以及如何使用它们。在计算机视觉、生物信息学、计算语言学和语音识别等诸多领域,都出现了为一组观测序列分配标签的任务。例如,考虑自然语言处理任务,即在句子中使用相应的词性标记标记单词。在这个任务中,每个单词都有一个标记,表示其适当的词性,从而产生带标注的文本。再举一个例子,考虑根据所观察到的行为给一个视频贴上一个人的心理状态标签的任务。你必须分析用户的面部表情,确定用户是否高兴、生气、悲伤等等。我们经常希望预测大量相互依赖的变量以及其他观察到的变量。如何实现这些任务?我们应该使用什么模型? 为什么要用条件随机场? 在许多应用中,我们希望能够预测相互依赖的多个变量。例如,一个运动队的表现取决于该队每个队员的健康状况。每个成员的健康可能会受到团队旅行计划的影响。比赛的结果可能会影响全队的士气。反过来,士气可能会影响健康。正如你所看到的,有多个变量错综复杂地相互依赖。条件随机场(CRFs)对这些问题的建模非常有用。与此类似的应用有很多,比如对图像的区域进行分类

斯坦福教授| 什么是博士论文?

≡放荡痞女 提交于 2021-01-28 14:39:07
本文中的闪图复制自北岭加州州立大学(California State University, Northridge) 网页 https://www. csun.edu/~vcpsy00h/crea tivity/define.htm 注:文末附交流群,最近赶ACL,比较忙,很多同学加了没有回过期了,可以重新加一下,备注好的一定会回复,敬请谅解。 这是我在1993年写给一名学生的信,内容涉及他的论文初稿。2003年,我修改了一下这封信,删除了与该学生相关的具体内容,并将修改后的这封信作为对所有研究生的额外知识要求。 I wrote this in 1993 as a letter to a student concerning a draft of his dissertation. in 2003 I edited it to remove some specific references to the student and present it as a small increment to the information available to my grad students. --spaf 先让我以一些看似显而易见的事情开始。Let me start by reviewing some things that may seem obvious: 第一

斯坦福HAI—细数全球18件AI大事记

好久不见. 提交于 2021-01-27 06:02:20
3 月 18 日,由李飞飞担任所长之一的「以人为本人工智能研究所」(HAI)自启动以来不短的时间后,终于完成了正式成立的高光时刻。而正式上线的官网日前也更新了两条博文,一篇是详尽介绍 HAI 的文章;另一篇则是今天要给大家介绍的斯坦福 HAI 版人工智能简史图,图中涵盖的信息包括:人工智能大事记、全球人工智能初创公司布局、人工智能的普及度进展、人工智能的研究和教育进展以及斯坦福的人工智能突破性成果和人工智能课程。 而之所以给此图加上「斯坦福 HAI 版」的前缀,则是因为本图笼罩着满满的「斯坦福」光环。本图虽然不够详尽,但是作为大家一窥人工智能历史以及目前相关进展的精简版素材,还是足够的。 下面就一起逐个看看吧~ 人工智能大事记 1955 年,在达特矛斯会议上,当时备受尊敬的计算机科学家约翰·麦卡锡首度提出「人工智能」这一概念。之后,本次会议也被视作人工智能正式诞生的标志,而提出者约翰·麦卡锡也被誉为「人工智能之父」。 1963 年,「人工智能之父」约翰·麦卡锡创建了斯坦福人工智能实验室(SAIL,Stanford Artificial Intelligence Laboratory)。该实验室拥有多个领域的专家,涉及机器人技术、计算机视觉、机器学习、图像处理、自然语言处理等多个领域,代表人物包括一大批在人工智能领域闻名遐迩的人物,如 Christopher Manning 、吴恩达

步入2021,大热的GNN会在哪些应用领域大展拳脚呢?

落爺英雄遲暮 提交于 2021-01-26 08:58:03
作者|Sergei Ivanov 来源|机器之心 由于 GNN 在图节点之间强大的建模功能,使得与图分析相关的研究领域取得了突破。本文我们将介绍关于 GNN 热门应用研究。 近年来,由于图结构的强大表现力,用机器学习方法分析图的研究越来越受到重视。图神经网络(GNN)是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性,现已被广泛应用到各个领域。 在本文中,机器学习研究科学家 Sergei Ivanov 盘点一下 2021 年需要了解的 GNN 应用热点,涵盖了推荐系统、组合优化、计算机视觉、物理 / 化学以及药物发现等领域。 推荐系统 图结构数据是来自用户与电子商务平台上产品交互的上下文中,因此,许多公司采用 GNN 进行产品推荐。一个标准的案例是对用户于商品的交互关系进行建模,然后以某种形式的负采样损失学习节点嵌入,并使用 KNN 索引实时检索给定用户的相似商品。首批使用这种 pipeline 的公司是 Uber Eats,该公司通过 GraphSage 网络推荐食品和餐馆。 此外,对于食品推荐,由于推荐的地理限制,生成的图相对较小,但一些公司在数十亿个边缘的规模上成功使用了 GNN。中国零售业巨头阿里巴巴在拥有数十亿用户和产品的网络上使用图嵌入技术和 GNN。构建这样的图可能是工程上的噩梦,但是对于最近的 Aligraph pipeline 而言

岗位内推 | 快手招聘内容理解算法工程师、实习生

喜你入骨 提交于 2021-01-24 13:15:41
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 快手是北京快手科技有限公司旗下的产品。 快手的前身,叫“GIF 快手”,诞生于 2011 年 3月,最初是一款用来制作、分享 GIF 图片 的手机应用。2012 年 11 月,快手从纯粹的工具应用转型为短视频社区。2018 年 6 月,快手全资收购 A 站。2019 年底,快手宣布 DAU 达到 3 亿。2020 年《春节联欢晚会》,快手成为独家互动合作伙伴,并在除夕当晚发放 10 亿元现金红包。 内容理解算法工程师 招聘性质: 实习生、社招为主,方向匹配的校招生也可以考虑。 工作地点: 北京 岗位描述: 1. 负责视频内容理解、多标签等相关算法的研发和落地; 2. 负责快手短视频、直播、商业化等场景的多模态内容理解工作,应用计算机视觉、NLP 等技术,提升短视频、直播及商业化的推荐、搜索的效果和体验; 3. 负责视频相关的语义理解、标签识别等工作,基于视频内容和用户行为构建 embedding 特征,持续优化并时刻保持技术先进性,将业界 SOTA 模型落地并改进以获取业务线上收益,并保持独立创新; 4. 负责相关的文本理解、视觉检索、视频生成等工作。 岗位要求: 1. 社招:2-5 年工作经验