计算机视觉

为什么说卷积神经网络,是深度学习算法应用最成功的领域之一?

大城市里の小女人 提交于 2021-02-16 11:22:42
目前,作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉、分类等领域上,都取得了当前最好的效果。 后来,基于深度神经网络和搜索树的智能机器人“AlphaGo”在围棋上击败了人类,这是CNN 给人们的一个大大的惊喜。一年后的 Master 则更是完虐了所有人类围棋高手,达到神一般的境界,人类棋手毫无胜机。 可以说,卷积神经网络是深度学习算法应用最成功的领域之一。 目前,CNN应用也十分广泛。例如Facebook用它进行自动的图像标签,google用它做照片检索,amazon用它做产品推荐,Pinterest用它做个性化家庭定制推送,Instagram用它搭建他们的搜索架构。 那么,基于CNN最经典也是最流行的应用应当是图像处理领域。 而研读卷积神经网络的经典论文,对于学习和研究卷积神经网络必不可缺。 今天,给大家推荐一些资料,有 论文、知识图谱。 7份经典学术论文 这些论文大部分都发表在计算机视觉顶级学术会议上。 这7份论文资料,100p以上的内容体量。 建议收藏学习。 01 resnet 02 CNN 03 batchnorm 04 alexnet 05 visualzing 06 resnet 07 yolo4 目前, 2000+ 的看过这个论文资料的同学都顺利成为各公司算法工程师。大家扫码添即可领取

对抗攻击之利用水印生成对抗样本

霸气de小男生 提交于 2021-02-14 17:26:13
本文为52CV粉丝鬼道投稿,介绍了对抗学习领域最新的工作 Adv-watermark 。 论文标题 : Adv-watermark: A Novel Watermark Perturbation for Adversarial Examples 论文链接: https://arxiv.org/pdf/2008.01919.pdf 引言 对抗样本生成的方法有很多,但它们都是在原图像上添加对抗扰动。本文提出的生成对抗样本的的方法很有趣,它是利用水印的不可察觉性,在水印上做文章从而生成对抗样本,即在干净图像中添加有意义的水印也可以攻击深度神经网络模型。如下图所示是分别是字母水印对抗样本和logo水印的对抗样本。 1.论文的贡献 本文的贡献可以归结如下三点: 作者提出了一种新的对抗样本算法 Adv-watermark 。水印同时具有水印特性(版权保护)和对抗样本的功能(导致训练好的模型误分类),需要注意的一点在于除了水印区域并没有其它的对抗扰动。 作者提出一种基于Adv-watermark的优化算法论文称为 BHE 。该优化方法采用基于种群的全局搜索策略方式生成对抗性样本。 实验结果显示,当水印大小为宿主图像大小的4/9(个人感觉扰动的像素过多,有点违背对抗样本的定义)时,它可以获得 97% 以上的攻击成功率。水印大小是宿主图像大小的1/16,也可以达到 65% 左右的攻击成功率。 2

基于图像的三维重建问题

跟風遠走 提交于 2021-02-12 12:01:38
基于图像的三维重建 是计算机视觉领域一个非常重要的研究方向。 在计算机视觉国际顶级会议 CVPR 2018论文录用名单中,涉及三维视觉的工作高达 90+ 篇 , 占 收录论文的 比例更是 高达10%左右, 近两年的研究热度也是持续高涨 。 由此可见,现实世界对象的三维重建是科研 的 前沿热点问题,也是计算机视觉、计算机图形学以及虚拟现实等领域中的共性科学问题与核心技术。 目前,三维重建技术已广泛应用于定位、导航、自动驾驶、AR、工业制造等领域。 京东、腾讯、百度等企业在招相应的岗位 , 薪资更是非常可观。 (图片来源:boss直聘) 学术界研究火热,产业应用落地广泛。面对三维重建的广阔发展前景,很多伙伴想要进入该领域,但 三维重建 不仅要具备深厚的数学功底,同时也需要熟练的C\C++编程能力,相较于其他视觉领域,入门门槛要高很多。而 市面上又很难找到 系统 的学习资料,这更是增加了自学的难度。 企业需求高,学习难度大,如何摆脱这种困境呢? 基于此,深蓝学院开设了 『基于图像的三维重建』 在线课程。 本课程 时隔两年 , 重磅回归,全新录制 , 一些章节新增了结合深度学习的方法,让大家更多了解三维重建发展的前沿技术。 通过本门课程的学习,大家 能够 快速建立完整的知识架构体系,理解整个系统的原理和技术流程,大家在透彻理解传统的图像建模方法的同时,能够一起探讨结合深度学习的前沿 发展

基于计算机视觉的棋盘图像识别

人盡茶涼 提交于 2021-02-12 11:53:23
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 本期我们将一起学习如何使用计算机视觉技术识别棋子及其在棋盘上的位置 我们利用计算机视觉技术和卷积神经网络(CNN)为这个项目创建分类算法,并确定棋子在棋盘上的位置。最终的应用程序会保存整个图像并可视化的表现出来,同时输出棋盘的2D图像以查看结果。 (左)实时摄像机进给的帧和棋盘的(右)二维图像 01. 数据 我们对该项目的数据集有很高的要求,因为它最终会影响我们的实验结果。我们在网上能找到的国际象棋数据集是使用不同的国际象棋集、不同的摄影机拍摄得到的,这导致我们创建了自己的数据集。我使用国际象棋和摄像机(GoPro Hero6 Black以“第一人称视角”角度)生成了自定义数据集,这使我的模型更加精确。该数据集包含2406张图像,分为13类(请参阅下文)。 总结:这花费了我们很多时间,但是这使得训练图像尽可能地接近在应用程序中使用时所看到的图像。 自定义数据集的细分 为了构建该数据集,我首先创建了 capture_data.py ,当单击 S 键时,该视频从视频流中获取一帧并将其保存。这个程序使我能够无缝地更改棋盘上的棋子并一遍又一遍地捕获棋盘的图像,直到我建立了大量不同的棋盘配置为止。接下来,我创建了 create_data.py ,以使用下一部分中讨论的检测技术将其裁剪为单独小块。最后

[计算机视觉]基于内容的图像搜索实现

独自空忆成欢 提交于 2021-02-12 11:30:41
图像搜索引擎一般有三种实现方式: (1)Search By Metadata,这种方式不会考虑图片本身内容(图片包含物体,以及图像像素分布等),纯粹根据图像标签来进行检索。如果某个网页中有一张赛马的图片,并且网页文本内容中包含“赛马”(或者相关词汇)的文字,当用户搜索“赛马”、“马”、“horse”等关键字时,搜索引擎就会把这张图当作检索结果返回给用户。换句话说,此时的图像搜索引擎干的事情跟普通搜索引擎差不多,匹配关键词,并将对应图片返回给用户。这种工作方式的优点是速度快,在普通搜索引擎的技术基础之上很容易改进去实现。缺点也很明显,它完全依赖于描述图片的文字(标签),如果描述图片的文字不对或者相关性不大时,搜索准确性可想而知,比如我这篇博客中如果插入一张“猫”的照片,但是整篇博客文章对“猫”只字不提,那么基于Search By Metadata的搜索引擎很难找到博客中猫的图片。 有一类图片分享网站要求用户在上传图片时,人工用几个词汇描述图片中有什么(标签),便于后面基于Metadata的搜索。当然也不排除一些基于深度学习的图片分类自动打标签的方式。 (2)Search By Example,这种方式考虑图片本身内容(图片包含物体,以及图片像素分布等等),用户输入图片,搜索引擎根据图片内容,返回与该图片相似的图片结果。这种方式相比Search By Metadata要复杂一些

英伟达开源「Imaginaire」:九大图像及视频合成方法,你学fei了吗?

风流意气都作罢 提交于 2021-02-12 05:39:39
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 图像 / 视频合成领域的集大成者,就在这一篇了。 图像和视频等视觉数据的生成是机器学习和计算机视觉领域重要的研究问题之一。近几年,英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型。 近日,英伟达又开源了一个新的 PyTorch 库「Imaginaire」,共包含 9 种英伟达开发的图像及视频合成方法。 项目地址: https://github.com/NVlabs/imaginaire 这九种方法分别为: 有监督的图像到图像转换 1、pix2pixHD 2、SPADE/GauGAN 无监督的图像到图像转换 1、UNIT 2、MUNIT 3、FUNIT 4、COCO-FUNIT 视频到视频转换 1、vid2vid 2、fs-vid2vid 3、wc-vid2vid pix2pixHD 「pix2pixHD」是 pix2pix 的升级版本,具备高分辨率图像和语义处理功能,主要解决了深度图像合成编辑中的质量及分辨率问题。 项目主页:https://tcwang0509.github.io/pix2pixHD/ 论文链接:https://arxiv.org/pdf/1711.11585.pdf 在这篇论文中,来自英伟达和 UC 伯克利的研究者提出了一种使用条件 GAN

机器学习小白必知必会

依然范特西╮ 提交于 2021-02-12 04:22:41
机器学习是一门多领域交叉学科,需要很多知识储备。 对于机器学习,很多人也只是一知半解,想要知其然、究其实,但是面对各种各样的书籍、文章却无从下手,摸不清门路。 小白该具备哪些知识点呢? 01 概念初识 机器学习领域内有很多专业术语,如繁星一般,穿插在各种技术文档、文献、书籍等资料中。学习机器学习的第一步就是了解这些专业术语,能够“读懂”各类文档。下面是一些比较常见的概念和定义: 实例: 表示具体的一件事物,可以是一本书,一只鸟等等,实例具有诸多属性,比如鸟的羽毛颜色、翅膀长度、鸟喙形状等等,我们可以凭借这些属性来判断鸟属于什么种类。 标签: 标签表示我们所关注的实例的“结果”或者“类型”,它是机器学习系统中预测的结果,或者是训练数据中所标识的正确答案。比如一本书可能是中文图书,也可能是外文图书,这就是这本书的标签或者说分类。 属性: 属性表示实例本身所具有的特性,实例与属性密不可分。实例往往具有很多属性,而在机器学习过程中,我们只关注对实例打标签有意义的属性。比如在判断书属于什么种类时,很明显出版时间这一属性对我们做决策并没有太大意义。 样本: 样本代表实例和实例标签的结合,用于模型训练和效果测试。在模型训练过程中,我们用大量实例的属性值(或特征)以及标签去调节模型中的参数,在测试阶段,使用训练好的模型输入实例的属性值,将模型的预测结果与对应实例的标签做对比。 大数据:

DSO论文解读

大憨熊 提交于 2021-02-12 01:42:12
dso 1.1. Motivation 本文提出的单目视觉测距法的直接和稀疏公式是出于以下考虑因素; (1)直接: 关键点的主要优点之一是它们能够为使用现成的商品相机拍摄的图像中存在的光度和几何失真提供稳健性。 例如自动曝光变化,非线性响应功能(伽马校正/白平衡),镜头衰减(渐晕),去连接伪像,或甚至由滚动快门引起的强烈几何失真。 同时,对于介绍中提到的所有用例,数百万台设备(并且已经)配备了专门用于为计算机视觉算法提供数据的摄像机,而不是为人类消费捕获图像。 这些摄像机应该并且将被设计为提供完整的传感器模型,并以最能为处理算法提供服务的方式捕获数据: 例如,自动曝光和伽马校正不是未知的噪声源,而是提供更好图像数据的功能 - 可以合并到模型中,使获得的数据更具信息性。 由于直接方法将完整的图像形成过程建模为像素强度,因此它可以从更精确的传感器模型中获益。 直接公式的主要好处之一是它不需要一个点本身可以识别,从而允许更精细的几何表示(像素反向深度)。 此外,我们可以从所有可用数据中进行采样 - 包括边缘和弱强度变化 - 生成更完整的模型,并在稀疏纹理环境中提供更强大的稳健性。 (2)稀疏: 添加几何体之前的主要缺点是引入几何参数之间的相关性,这使得实时统计上一致的联合优化不可行(参见图2)。 2.2模型公式 我们将在目标帧I j中观察到的参考帧I i中的点p

为什么大公司要开源自己的技术?

[亡魂溺海] 提交于 2021-02-11 20:57:00
大约一个月前,谷歌公开了用于Big Transfer(BiT)的预训练模型和微调代码——Big Transfer是一种深度学习的计算机视觉模型。根据谷歌的说法,Big Transfer将允许任何人在相应的任务上达到最优表现,即使每个类只有少量的标签图片。这仅仅是这家科技巨头免费向公众开放其专有产品的一个例子。要知道,发布强大的免费开源软件已经成为科技界的常见事件,并引发了这样一个问题:大型科技公司这么做得到了什么回报? 在90年代后期,当Open Source Initiative出现时,将源代码公开的想法被认为是一个坏策略,因为专有软件是标准,公司会尽一切努力保护软件。到2020年,开源的概念发生了巨大的变化,现在已经成为主流。 如今有许多开源技术公司,其中一些公司的年收入已经超过1亿美元(甚至10亿美元),包括红帽、MongoDB、Cloudera、MuleSoft、Hashicorp、Databricks(Spark)和Confluent(Kafka)。 除了上述科技公司高调收购和投资开源项目外,谷歌和Facebook等科技巨头也把开源放到了难以置信的重要位置,因为开源对于收集新产品的创新和建立一个庞大的开发者社区非常重要。例如,Flutter vs React Native、Tensorflow vs PyTorch、Kubernetes等

始于TensorFlow ,终于PyTorch

北慕城南 提交于 2021-02-11 03:19:39
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 作者 | Scott Carey 译者 | Sambodhi 策划 | 刘燕 转自 | AI前线 为什么这三家公司最终都不约而同地放弃 TensorFlow ,而转向了 PyTorch? 本文最初发表于 InfoWorld,经 InfoWorld 授权,InfoQ 中文站翻译并分享。 深度学习框架 PyTorch 凭借其相对易用性,已经渗透到了企业中。本文提到的三家公司告诉我们,为什么他们选择 PyTorch 而不是 Google 著名的 TensorFlow 框架。 深度学习 是机器学习的一个子类别,它使用多层神经网络将历史上很难完成的机器任务——比如 图像识别、自然语言处理 和 机器翻译——实现大规模自动化。 自 2015 年以来,TensorFlow 就从 Google 中脱颖而出,在研究和商业领域成为最受欢迎的开源深度学习框架。但是 2016 年从 Facebook 诞生的 PyTorch 由于社区推动的易用性改进和越来越广泛的用例部署,而迅速 赶上TensorFlow。 在汽车行业,PyTorch 的应用尤为广泛——它可以应用于 Tesla 和 Lyft Level 5 等公司的实验性自动驾驶系统。该框架也被媒体公司用来对内容进行分类和推荐,并在工业应用中支持机器人。 Facebook