卷积

深度学习之⽹络中的⽹络(NIN)

倾然丶 夕夏残阳落幕 提交于 2020-03-18 19:26:15
LeNet、AlexNet和VGG在设计上的共同之处是:先以由卷积层构成的模块充分抽取空间特征,再以由全连接层构成的模块来输出分类结果。 其中,AlexNet和VGG对LeNet的改进主要在于如何对这两个模块加宽(增加通道数)和加深。本节我们介绍⽹络中的⽹络(NiN)—— 它提出了另外⼀个思路,即串联多个由卷积层和“全连接”层构成的⼩⽹络来构建⼀个深层⽹络。 一、NIN 块 卷积层的输⼊和输出通常是四维数组(样本,通道,⾼,宽),⽽全连接层的输⼊和输出则通常是⼆维数组(样本,特征)。如果想在全连接层后再接上卷积层,则需要将全连接层的输出变换为四维。 左图是AlexNet和VGG的⽹络结构局部,右图是NiN的⽹络结构局部 二、NIN模型 NiN是在AlexNet问世不久后提出的。它们的卷积层设定有类似之处。NiN使⽤卷积窗⼝形状分别为 \(11 \times 11\) 、 \(5 \times 5\) 和 \(3 \times 3\) 的卷积层,相应的输出通道数也与AlexNet中的⼀致。每个NiN块后接⼀个步幅为2、窗⼝形状为 \(3 \times 3\) 的最⼤池化层。 NIN 与 ALexNet 区别: NiN去掉了AlexNet最后的3个全连接层,取⽽代之地,NiN使⽤了输出通道数等于标签类别数的NiN块,然后使⽤全局平均池化层对每个通道中所有元素求平均并直接⽤于分类。 来源

3D重建算法原理

感情迁移 提交于 2020-03-18 10:01:01
3D重建算法原理 三维重建(3D Reconstruction)技术一直是计算机图形学和计算机视觉领域的一个热点课题。早期的三维重建技术通常以二维图像作为输入,重建出场景中的三维模型。但是,受限于输入的数据,重建出的三维模型通常不够完整,而且真实感较低。随着各种面向普通消费者的深度相机(depth camera)的出现,基于深度相机的三维扫描和重建技术得到了飞速发展。以微软的Kinect,华硕的XTion以及因特尔的RealSense等为代表的深度相机造价低廉,体积适当,操作方便,并且易于研究者和工程师进行开发。三维重建技术也是增强现实(Augmented Reality,简称AR)技术的基础,经过扫描重建后的三维模型可以直接应用到AR或VR的场景中。本文将简单介绍基于深度相机的三维重建技术的基本原理及其应用。 背景 对几何3D模型不断增长的需求:电影 游戏 虚拟环境等行业 VR&AR的火爆 房地产 三维地图等领域的需求 中国古代建筑三维数字化保护 三维数字化城市 三维地图 VR&&AR游戏,电影等 医疗行业:三维心脏 教育行业等 应用 方法介绍 传统的三维重建主要是依靠昂贵的三维扫描设备,并且需要被扫描的目标保持一段时间的稳定。近年来,由于计算机硬件大规模计算能力的发展,特别是GPU和分布式计算的发展,实时高效的解决方案成为了可能。目前主流的方法主要分为以下两类:

数字图像基本处理——空间滤波(spatial filtering)

房东的猫 提交于 2020-03-17 21:57:57
空间滤波器主要包括平滑滤波器和锐化滤波器,下面从理论和实践两个部分阐述。 理论 空间滤波的公式如下: 空间滤波的过程也就是不断用一个filter(一般为3X3)在图像上与同样大小的局部patch作用,作用结果更新在中心点上,所以需要m,n为奇数。 在2维时域信号上做卷积与此公式稍有不同,如下: 可以看到,空间滤波公式中两个+变成了-,对应于空间滤波中的filter旋转180度之后的filter相作用,所以当filter为对角线对称的时候,空间滤波与2维卷积是一样的,而通常filter是对角线对称的。区别于卷积,一般将空间滤波描述为correlation,即看filter和图片上local patch的相关性。 1、平滑滤波器 平滑滤波器的两个主要作用是模糊化和降噪(如美颜相机中的磨皮操作) 分母除以一个数保证变换后强度不会大增。 1.1 线性滤波 常用的线性滤波有均值滤波(频域上的低通滤波器)和高斯滤波。下图分别是均值滤波器(左)和高斯滤波器(右)示例: 一个例子就是处理如下左图,只想保留较大的点,通过平滑过滤器模糊化,将小点融合,该地方有个trick就是因为该图对比度比较明显,可以通过加阈值来截断亮点和暗点。 1.2 非线性滤波 常用的线性滤波有中值滤波和最大值滤波。 中值滤波器: 从上式很容易看出中值滤波就是在输入图像的patch上用中值代替该点。中值滤波器适用于突变的噪声点

【论文笔记】:Convolutional Neural Networks for Sentence Classification用CNN做句子分类

ⅰ亾dé卋堺 提交于 2020-03-17 19:01:59
本文是对论文的解读和复现。 论文地址:https://arxiv.org/abs/1408.5882 参考代码: https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247488163&idx=4&sn=5ad2454db800f12e09564b2de3ae524c&chksm=eb500630dc278f263976590419bd9354815bc0249e81cfb1b721926ff163fe0e469e014dc9de&mpshare=1&scene=23&srcid=0314rFaFU9ZiLpyyQU3rdVsB&sharer_sharetime=1584435544460&sharer_shareid=470498a3f8c258720b36d27077b3ab82#rd 一、论文 在预先训练的词向量上训练卷积神经网络(CNN)用于句子级分类任务的实验。证明了一个简单的CNN,它只需要很少的超参数调整和静态向量,就可以在多个基准上获得很好的结果。通过微调学习特定于任务的向量可以进一步提高性能。本文讨论的CNN模型改进了7项任务中的4项,包括情感分析和问题分类。 1.introduce 近年来,深度学习模型在计算机视觉(Krizhevsky et al.,2012)和语音识别(Graves et al.

YOLOv3: An Incremental Improvement - 1 - 论文学习

馋奶兔 提交于 2020-03-17 13:04:34
Abstract 我们为YOLO提供一些更新!我们做了一些小的设计上的改变来使它更好。我们还训练了这个非常棒的新网络。它 比上次大了一点,但更准确。不过还是很快的 ,别担心。在320×320大小图片上, YOLOv3运行22毫秒,结果为28.2 mAP,和SSD一样准确,但比他快三倍。当我们以旧的 0.5 IOU mAP检测指标为标准的时候,YOLOv3的结果还是是相当不错的。与RetinaNet的57.5 AP 50 (198 ms)相比,它在Titan X上实现57.9 AP 50 (51 ms),性能类似,但快了3.8倍。和往常一样,所有的代码都可见https://pjreddie.com/yolo/. 1. Introduction 有时候你会给它打一年电话,你知道吗?我今年没有做很多研究。花了很多时间在Twitter上。玩了一会儿GANs。去年[12][1]还剩下一点动力;我对YOLO做了一些改进。但是,说实话,没有什么超级有趣的,只是一些小的改变,使它更好。我也帮助别人做了一些研究。 事实上,这就是我们今天来到这里的原因。我们有一个准备好拍摄的最后期限[4],我们需要引用一些 YOLO中的 随机更新,但我们没有一个来源。所以准备好技术报告吧! 技术报告的伟大之处在于他们不需要介绍,你们都知道我们为什么在这里。因此,这一介绍的结尾将为论文的其余部分指明方向

Focal Loss for Dense Object Detection - 1 - 论文学习

偶尔善良 提交于 2020-03-17 13:04:18
Abstract 迄今为止,精确度最高的目标探测器是基于R-CNN推广的两阶段方法,其中分类器应用于稀疏的候选对象位置集合。相比之下,对可能的目标位置进行常规、密集采样的单级探测器有可能更快、更简单,但迄今仍落后于两阶段探测器的精度。在这篇文章中,我们研究为什么会这样。我们发现,在高密度探测器的训练过程中所遇到的极度前、后级不平衡是其主要原因。我们建议通过重塑标准的交叉熵损失来解决这类不平衡,这样它就可以降低分类良好的例子的损失。我们的新Focal loss损失集中在一组稀疏的困难例子的训练,并防止训练期间大量的容易检测的负样本压倒探测器。为了评估损失的有效性,我们设计并训练了一个简单的高密度探测器,我们称之为RetinaNet。我们的结果表明,当使用Focal loss训练时,RetinaNet能够达到以前单阶段探测器的速度,同时超过所有现有的最先进的两阶段探测器的精度。代码是:https://github.com/facebookresearch/Detectron. 1. Introduction 目前最先进的目标探测器是基于一个两阶段,proposal驱动的机制。正如R-CNN框架[11]所推广的那样,第一阶段生成一组稀疏的候选对象位置,第二阶段使用卷积神经网络将每个候选位置分类为前景类或背景类。通过一系列的改进[10,28,20,14]

Low-light images enhancement/暗光/低光/微光增强系列:Attention-guided Low-light Image Enhancement(详解)

≡放荡痞女 提交于 2020-03-17 08:01:23
以下文字为博主翻译并添加了自己的理解, 斜体 为博主自己的想法,若有出错请指出。 摘要 暗光图像增强需要同时有效地处理颜色、亮度、对比度、伪影和噪声等多种因素。本文提出了一种新颖的注意力引导增强方案,并在此基础上构建了 端到端多分支(multi-branches) CNN。该方法的关键是计算两个 注意力 图来分别指导曝光增强和去噪任务。第一个注意力图区分曝光不足的区域和光照较好的区域,而第二个注意力图区分噪音和真实纹理。本论文的方法还能增强暗光图像缺失的对比度。论文还提出了一种创建暗光增强的大数据集。 Introduction 暗光图像质量退化严重,相比正常曝光图像,丢失了许多细节,颜色失真,同时拥有非常多的噪点,对于现实中的高级视觉任务性能有严重影响。基于HE(直方图均衡)的方法和基于RETINEX的传统方法都不能很好地解决暗光增强的问题,而且这些方法常常忽视 去噪 。 在之前的研究中,有先去噪,再增强的流程;也有先增强,再去噪的流程。但是前者导致图像变得模糊,后者会放大噪点。而本文的方法,将增强和去噪同时进行,能够有效地避免以上问题。 本文最主要的贡献列为三点: 设计了注意力图为引导的双向增强网络,拥有多分支结构,可以同时进行去噪和增强 设计了一套高质量的暗光图像训练流程,创建了一个大规模的成对暗光图像(合成)数据集,有助于其他研究者进行研究 研究成果表明,方法达到了SOTA

MobileFaceNets

牧云@^-^@ 提交于 2020-03-17 02:14:19
论文:MobileFaceNets: Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices 0 摘要 作者简单分析了普通的移动式设备上部署的网络应用于人脸验证任务时的缺点,并克服这个缺点设计了高效、准确的人脸验证模型MobileFaceNets。在相同的实验条件下,MobileFaceNets和MobileNetV2识别准确率相当,但速度要快了两倍。使用arcface loss,基于MS-Celeb-1M数据集,大小仅为4MB的MobileFaceNets模型在LFW上取得了99.55%的人脸验证准确率,在MegaFace上FAR=1e-6时的TAR为92.59,这个准确率和大小为数百MB的大模型相当。最快的一个MobileNets在手机上的推理时间仅为18ms。综合来看,MobileFaceNets效率比之前的移动式模型有了很大的提升。 1 核心思想 1.1 传统的轻量化网络用于人脸验证任务时的弊端 轻量化网络,如MobileNetV1,ShuffleNet和MobileNetV2,都使用了全局平均池化层GAP。对于人脸验证和识别任务,有的论文提到使用了GAP之后识别准确率会降低,但这些论文都没有给出理论上的解释。这里,作者尝试从感受野的角度出发来解释下这个问题。

Day3_13 non-local U-Nets

可紊 提交于 2020-03-16 20:15:14
背景 深度学习在各种生物医学图像分割任务重显示出巨大的应用前景。现有的模型一般基于U-Net,它依赖重复叠加的局部算子来聚合远程信息。这样做会限制模型的训练效率和最终效果。这篇文章提出了非局部的U-Nets网络架构,提出了全局聚合块的应用,它能够融合来自任何大小的特征映射的全局信息。通过在三维多模等强度婴儿脑磁共振图像分割任务上进行试验证明这个模型参数少,计算速度快,并且具有更好的分割效果。 介绍 U-Net的缺点 U-Net是由一个下采样编码器和一个上采样解码器以及它们之间的跳过连接组成的。它通过编解码过程来 U-Net主要有两个局限性: 编码器通常叠加卷积和池化操作以逐步减小特征图的大小。这种方式会引入大量参数,降低模型的效率。此外,下采样会不断丢失空间信息,也会影响最终的分割效果。 上采样过程涉及到空间信息的恢复,如果不考虑全局信息很难实现。 创新点 文章中针对U-Net的这些缺点,进行了几点创新。 提出了一个基于自我主义算子的全局聚合块,它能够在没有深入编码器结构的情况下聚合全局的信息。 将这个全局聚合块应用到上采样过程中,也一定程度上解决了上述第二个问题。 Non-local U-Nets 基于U-Net框架的示意图如下: 输入首先经过一个编码输入块,它提取低层特征。接着利用两个下采样块来减少空间尺寸,以此来获得高阶特征。在这之后,底层块聚合全局信息并产生编码器的输出