卷积

揭秘“图像识别”的工作原理

时光怂恿深爱的人放手 提交于 2020-03-10 16:25:23
对人类来说,描述我们眼睛所看到的事物,即“视觉世界”,看起来太微不足道了,以至于我们根本没有意识到那正是我们时时刻刻在做的事情。在看到某件事物时,不管是汽车、大树,还是一个人,我们通常都不需要过多的思考就能立刻叫出名字。然而对于一台计算机来说,区分识别“人类对象”(比如:在小狗、椅子或是闹钟这些“非人类对象”中识别出奶奶这一“人类对象”)却是相当困难的。 能解决这一问题可以带来非常高的收益。“图像识别”技术,更宽泛地说是“计算机视觉”技术,是许多新兴技术的基础。从无人驾驶汽车和面部识别软件到那些看似简单但十分重要的发展成果——能够监测流水线缺陷和违规的“智能工厂”,以及保险公司用来处理和分类索赔照片的自动化软件。这些新兴科技是离不开“图像识别”的。 在接下来的内容里,我们将要探究“图像识别”所面临的问题和挑战,并分析科学家是如何用一种特殊的神经网络来解决这一挑战的。 学会“看”是一项高难度、高成本的任务 着手解决这个难题,我们可以首先将元数据应用于非结构化数据。在之前的文章里,我们曾描述过在元数据稀缺或元数据不存在的情况下,进行文本内容分类和搜索遇到的一些问题和挑战。让专人来对电影和音乐进行人工分类和标记,确实是一项艰巨的任务。但有些任务不仅艰巨,甚至是几乎不可能完成的。比如训练无人驾驶汽车里的导航系统,让其能够将其他车辆与正在过马路的行人区分开来

论文翻译--Deep Feature Flow for Video Recognition

给你一囗甜甜゛ 提交于 2020-03-10 12:11:23
Abstract 深度卷积神经网络在图像识别方面取得了很大的成功。然而,将最先进的图像识别网络转换成视频并非易事, 因为每帧的评估速度太慢,而且负担不起 。 提出了一种基于深度特征流的快速、准确的视频识别框架 。它只在稀疏关键帧上运行繁琐的卷积子网络, 并通过流场将它们的深度特征映射传播到其他帧 。由于流计算速度相对较快,因此实现了显著的加速。整个体系结构的端到端训练显著提高了识别精度。深度特征流具有灵活性和通用性。在两个视频数据集上进行了目标检测和语义分割的验证。它显著地推进了视频识别任务的实践。 Introduction 近些年来,深度卷及网络去得了巨大的成功。快速准确的视频识别对于高价值场景至关重要,例如,自动驾驶和视频监控。然而,将现有的图像识别网络应用于单个视频帧会带来难以负担的计算量大多数应用程序的成本。 我们普遍地意识到图像内容的变化缓慢,特别是高级别场景下。 这一观察结果已被用于特征学习的正则化方法,并将视频视为未使用的数据源[46,21]。然而,这样的数据冗余 并利用连续性来降低计算成本。然而,这方面很少受到注意用于文献中使用CNNs的视频识别。 现有的CNN架构有一个共同点,就是大多数层是卷基化并且占用了太多的计算量。中间卷及地形图具有与输入突袭那个相同的空间范围,通常分辨率较小,如16x16或者更小。他们之间保持了低层次的关系,层次语义概念看【48】

OpenCV基本函数与原理(三)

别等时光非礼了梦想. 提交于 2020-03-10 05:42:28
1自定义线性滤波 1.1卷积概念 卷积是图像处理中一个操作,是kernel在图像的每个像素上的操作。 Kernel本质上一个固定大小的矩阵数组,其中心点称为锚点(anchor point) 卷积如何工作: 把kernel放到像素数组之上,求锚点周围覆盖的像素乘积之和(包括锚点),用来替换锚点覆盖下像素点值称为卷积处理。数学表达如下: 例子: Sum = 8x1+6x1+6x1+2x1+8x1+6x1+2x1+2x1+8x1 New pixel = sum / (m n) = Sum / (3 3) 卷积作用: 1模糊图像; 2)提取边缘; 3)进行图像増显,锐化等。 1.2 常见算子 1)Robert 算子(Robert X 算子 和 Robert Y 算子) 例子:Mat robert_x = (Mat_(2, 2) << 1, 0, 0, -1); 2)Sobel 算子(Sobel X 算子 和 Sobel Y 算子) 例:Mat sobel_x = (Mat_(3, 3) << -1, 0, 1, -2, 0, 2, -1, 0, 1); 3)拉普拉斯算子 例子: Mat lpls = (Mat_(3, 3) << 0, -1, 0, -1, 4, -1, 0, -1, 0); 自定义卷积模糊API: filter2D方法 filter2D ( Mat src , /

PaperNote - 基于时空特征融合的入侵检测系统模型

。_饼干妹妹 提交于 2020-03-09 15:25:58
原文标题:Model of the intrusion detection system based on the integration of spatial-temporal features 原文作者:Jianwu Zhang, Yu Ling, Xingbing Fu, Xiongkun Yang, Gang Xiong, Rui Zhang 原文来源:Computers & Security 2020 原文链接:https://www.sciencedirect.com/science/article/pii/S0167404819302214 文章目录 1 简介 2 相关工作 2.1 入侵检测系统 2.2 深度神经网络 3 MSCNN-LSTM设计 3.1 数据选择 3.2 数据处理 3.2.1 数据标准化(standardization) 3.2.2 数据归一化(normalization) 3.3 特征学习过程 3.4 多尺度卷积(multiscale convolution) 3.5 LSTM网络 3.5.1 RNN 3.5.2 LSTM 3.6 池化层 3.7 模型反馈 4 实验 4.1 实验数据 4.2 实验过程 4.3 实验度量 4.4 实验结果 5 总结 1 简介 传统的机器学习方法,如SVM、贝叶斯网络、聚类等,当数据集的规模较小、维度较低时

使用卷积神经网络识别交通标志

一曲冷凌霜 提交于 2020-03-09 14:57:28
什么是卷积神经网络 以下解释来源于ujjwalkarn的博客: 卷积神经网络(ConvNets 或者 CNNs)属于神经网络的范畴,在图像识别和分类领域具有高效的能力。卷积神经网络可以成功识别人脸、物体和交通信号,从而为机器人和自动驾驶汽车提供视力。 在上图中,卷积神经网络可以识别场景,也可以提供相关的标签,比如“桥梁”、“火车”和“网球”;而下图展示了卷积神经网络可以用来识别日常物体、人和动物。最近,卷积神经网络也在一些自然语言处理任务(比如语句分类)。 因此,卷积神经网络对于今天大多数的机器学习用户来说都是一个重要的工具。 卷积操作 “卷积”这一词在多个领域里都有定义(比如信号处理领域的傅里叶变换中也有卷积)。具体在图像处理领域,卷积操作是指使用一个小的“模板窗口”对一个图片中的所有与模板大小相同的区域进行“卷积运算”。“卷积运算”其实很简单,就是将模板中的每一个数字与图片中相同大小区域的对应数字(像素值)进行相乘,再求和。具体操作如下图: “模板窗口”每移动到一个位置,就和图片中的对应元素进行一次卷积运算,注意我们一般把“模板窗口”称为卷积核(kernel)。 比如在第一个位置,图片上的四个像素值为[[0,0],[1,1]], 而卷积核中的数值为[[-1,1],[-1,1]], 对应元素相乘再求和,得到0 -1+0 1+1 -1+1 1=0 比如在第二个位置

卷积的实现原理

筅森魡賤 提交于 2020-03-09 13:48:02
卷积的实现原理 特征图作为矩阵乘法的右元 特征图作为矩阵乘法的左元 总结   我前面的一篇文章中, 卷积操作的计算量 分析中,引用了矩阵相乘来概括卷积的计算量,这样做确实是有道理的,因为在 卷积的实现中的确是通过矩阵相乘来加速卷积的计算。 但是我在那篇文章只是简单的通过矩阵相乘来简单的分析了一下维度信息,事实上,各种框架的实现也并不一定符合我的分析,但是殊途同归。   本文将为大家耐心整理了一下具体的实现( 吐槽一下干这件事确实花了我相当多的功夫,因为网上写的东西太乱了,很多人都搞错了框架和实现的对应。再或者是自己的分析和配图不符,或者是自己实现后一运行,单通道对了,多通道就错了 。)   首先也是从最容易错的地方,通道这个概念说起,大体目前的框架实现卷积的时候,特征图格式分为两种,一种是 N ∗ C ∗ H ∗ W N*C*H*W N ∗ C ∗ H ∗ W ,即N表示batchsize中特征图的数量,C表示通道数,H,W表示每个特征图的长宽。一种是 N ∗ H ∗ W ∗ C N*H*W*C N ∗ H ∗ W ∗ C ,与第一种的区别在于通道的位置不一样。首先通道的位置决定了一个通道是否连续的问题,连续的利于访问局部性,可以提高速度。另一个差异决定了决定了矩阵乘法的结果形状转化有区别。   另外一处区别就在于,那就是矩阵乘法操作的特征图作为左元和右元的区别。这句话怎么理解

【论文学习3】Local Differential Privacy for Deep Learning

泄露秘密 提交于 2020-03-08 22:17:06
Local Differential Privacy for Deep Learning 0.ABSTRACT 物联网正在改变包括但不限于医疗、农业、金融、能源和交通等主要行业。物联网平台不断改进,创新包括边缘云交互中的 软件定义网络(SDN) 和 网络功能虚拟化(NFV) 的融合 深度学习因其在使用大量数据进行训练时具有显著的准确性而越来越受欢迎。然而,当使用高度敏感的众包数据(如医疗数据)进行训练时,DL算法往往会泄露隐私。现有的保护隐私的DL算法依赖于传统的以服务器为中心的方法,这种方法需要很高的处理能力。 我们提出了一种新的 局部差异私有(LDP) 算法,称为LATENT算法,重新设计了训练过程。LATENT允许数据所有者在数据离开数据所有者的设备并到达潜在不受信任的机器学习服务之前添加随机化层.卷积神经网络的结构:(1)卷积模块(2)随机化模块(3)全连接层。随机化模块可以作为SDN控制NFV中的NFV隐私保护服务运行。 随机化模块采用了一种新的LDP协议,称为 效用增强随机化(utility enhanced randomization) ,与现有的LDP协议相比,它允许潜在用户保持较高的效用。我们对潜在卷积深度神经网络的实验评估表明,即使在低隐私预算(例如,ε=0.5)下,具有高模型质量的优良精度。 模型通常针对敏感的众包数据(如个人图像、健康记录和财务记录)进行训练

十种卷积神经网络(CNN)框架的详细可视化分析 &迁移神经网络的实际使用(基于Keras)

本小妞迷上赌 提交于 2020-03-08 20:18:21
目录 1. 典型深度学习框架 1.1 概述 1.2 可视化解读十种CNN框架 1.2.1 LeNet-5(1998) 1.2.2 AlexNet(2012) 1.2.3 VGG16(2014) 1.2.4 Inception-v1(2014) 1.2.5 Inception-v3(2015) 2. 深度迁移学习攻略 应对过拟合 数据增强 十种卷积神经网络框架 1. 典型深度学习框架 1.1 概述 论文发表时间: Keras 可以使用的6种模型 现在已经不止6种: Keras Documentation “[m]ost of this progress is not just the result of more powerful hardware, larger datasets and bigger models, but mainly a consequence of new ideas, algorithms and improved network architectures.” (Szegedy et al, 2014) 1.2 可视化解读十种CNN框架 1.2.1 LeNet-5(1998) ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200308172729411.png?x-oss-process=image

利用全卷积网络进行车道识别

五迷三道 提交于 2020-03-08 18:12:08
预先训练好的VGG-16网络 https://gist.github.com/baraldilorenzo/07d7802847aaad0a35d3 VGG 16http://www.robots.ox.ac.uk/~vgg/research/very_deep/ 代码实现 https://github.com/mengli/MachineLearning/blob/master/self_driving/road_seg/convnet.py 我们再把4 \times 4的输入特征展成16 \times 1的矩阵X: 那么输出矩阵Y=CX则是一个 4 × 1 4 \times 1 4 × 1 的输出特征矩阵,把它重新排列成$2 \times 2的输出特征就得到最终的结果,通过上述的分析,我们可以看到卷积操作可以表示为和矩阵C相乘,那么反卷积操作就是和矩阵C的转置C^T相乘。因此,反卷积操作也被称为转置卷积操作(transposed convolutional layer)。 下图所示的是参数为 i ′ = 2 , k ′ = 3 , s ′ = 1 , p ′ = 2 i'=2, k'=3, s'=1, p'=2 i ′ = 2 , k ′ = 3 , s ′ = 1 , p ′ = 2 的反卷积操作,其对应的卷积操作参数为 i = 4 , k = 3 , s = 1 , p =

【Paper Reading】【TextBoxess: A Fast Text Detector with a Single Deep Neural Network】

╄→尐↘猪︶ㄣ 提交于 2020-03-08 14:51:27
Introduction: 传统文本检测方法步骤: 1) character/word candidate generation:候选词的产生 2) Candidate filtering:候选词过滤 3) grouping:分组 弊端:需要保证每一个模型都正常工作,从而需要耗费大量精力调参和设计启发式规则,这同样也会减慢检测速度 本文:通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本 Contributions: 高速准确的文本检测器:TextBoxes。通过整合预测文本出现位置(text presence)和相对于default boxes(SSD)的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合,再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词,我们设计了几个novel,inception-style的输出层,可以利用不规律(irregular)的卷积核和default boxes 单词识别(word recognition)有助于从背景中区分文本,尤其是当单词被限定再一个给定的集合中时,比如一个词典(lexicon)。故本文采用成功的文本识别算法,CRNN与TextBoxes结合。识别器不仅提供额外的识别输出,还使文本检测具有了语义水平的意思,从而大大提高了单词识别