layer

TensorFlow实战第八课(卷积神经网络CNN)

浪尽此生 提交于 2021-02-01 11:55:19
首先我们来简单的了解一下什么是卷积神经网路(Convolutional Neural Network) 卷积神经网络是近些年逐步兴起的一种人工神经网络结构, 因为利用卷积神经网络在图像和语音识别方面能够给出更优预测结果, 这一种技术也被广泛的传播可应用. 卷积神经网络最常被应用的方面是计 算机的图像识别, 不过因为不断地创新, 它也被应用在视频分析, 自然语言处理, 药物发现, 等等. 卷积也就是说神经网络不再是对每个像素的输入信息做处理了,而是图片上的每一个小块像素区域进行处理,这种做法加强了图片信息的连续性。是的神经网络能够看到图形,而非一个点。这种做法 同时也加深了神经网络对图片的理解 具体来说,卷积神经网络有一个批量过滤器,持续不断的在图片上进行滚动手机图片里的信息,每一次手机的时候都只是收集一小块像素区域 然后把收集来的信息进行整理, 这时候整理出来的信息有了 一些实际上的呈现, 比如这时的神经网络能看到一些边缘的图片信息, 然后在以同样的步骤, 用类似的批量过滤器扫过产生的这些边缘信息, 神经网络从这些边缘信息里面总结出更高层的信息结构。 卷积过程 下面是一张猫咪的图片,图片有长宽高三个参数(高度是指计算机用于产生颜色使用的信息。例如黑白颜色的话图片高度为1,彩色的话RGB,高度为3)。过滤器就是影响中不断移动的东西,他不断在图片收集小批小批的像素块,收集完所有信息后

经典神经网络 | Faster R-CNN 论文解析

喜欢而已 提交于 2021-02-01 11:29:08
点击上方“ 计算机视觉cv ”即可“进入公众号” 重磅干货第一时间送达 论文题目:Faster R-CNN: T owards Real-Time Object Detection with Region Proposal Networks 论文链接:https://arxiv.org/abs/1506.01497 作者及单位 研究目标 Faster R-CNN是为了改进Fast R-CNN而提出来的。因为在Fast R-CNN文章中的测试时间是不包括search selective时间的,而在测试时很大的一部分时间要耗费在候选区域的提取上。所以作者提出了 RPN 来提取候选框,使时间大大的减少了。 Faster R—CNN网络介绍 Faster R—CNN结构 Faster R—CNN具体可分为四个结构: Conv layers:作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的 feature maps 。该feature maps被共享用于后续RPN层和全连接层。 Region Proposal Networks:RPN网络用于生成region proposals。该层通过softmax判断anchors属于 positive或者 negative,再利用bounding box

经典的CNN网络模型概述

南楼画角 提交于 2021-02-01 11:28:54
经典的CNN网络模型概述 接下来几天,将把自己最近读的关于图片分类的经典网络模型论文整理一遍。大概做个摘要。这些论文都是在imagenet上1.2 million数据训练出来的。 由于从这些预训练的网络训练的deep feature有良好的泛化能力,可以应用到其他不同的CV问题,而且比传统的hand-craft feature要好,所以得到广泛应用。 从AlexNet论文说起,ImageNet Classification with Deep Convolutional Neural Networks。 在ImageNet LSVRC-2010 2012表现突出 top-1误差率37.5%,以及top-5误差率17.0% 网络有6000万个参数和650,000个神经元 网络结构五个卷积层,以及某些卷积层后的池化层,以及最后的三个全连接层 引入正则化方法dropout ReLU修正线性单元的引入,比tanh等要快的多 论文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 接下来的NIN论文,Network In Network NIN利用Global average pooling去掉了FC layer, 大大减少了模型大小

CNN 经典网络之-ResNet

拟墨画扇 提交于 2021-02-01 11:28:33
resnet 又叫深度残差网络 图像识别准确率很高,主要作者是国人哦 深度网络的退化问题 深度网络难以训练,梯度消失,梯度爆炸,老生常谈,不多说 resnet 解决了这个问题,并且将网络深度扩展到了最多152层。怎么解决的呢? 残差学习 结构如图 在普通的卷积过程中加入了一个x的恒等映射(identity mapping) 专家把这称作 skip connections 或者 shortcut connections 残差结构的理解 为什么要这样呢?下面我从多个角度阐述这个问题。 生活角度 每学习一个模型,我都希望能用日常的生活去解释为什么模型要这样,一是加深对模型的理解,二是给自己搭建模型寻找灵感,三是给优化模型寻找灵感。 resnet 无疑是解决很难识别的问题的,那我举一个日常生活中人类也难以识别的问题,看看这个模型跟人类的识别方法是否一致。 比如人类识别杯子里的水烫不烫 一杯水,我摸了一下,烫,好,我的神经开始运转,最后形成理论杯子里的水烫,这显然不对 又一杯水,我一摸,不烫,好嘛,这咋办,认知混乱了,也就是无法得到有效的参数, 那人类是怎么办呢? 我们不止是摸一摸,而且在摸过之后还要把杯子拿起来仔细看看,有什么细节可以帮助我们更好的识别,这就是在神经经过运转后,又把x整体输入, 当然即使我们拿起杯子看半天,也可能看不出任何规律来帮助我们识别,那人类的作法是什么呢?我记住吧

cnn 经典网络结构 解析

别等时光非礼了梦想. 提交于 2021-02-01 11:21:09
cnn发展史 这是imageNet比赛的历史成绩 可以看到准确率越来越高,网络越来越深。 加深网络比加宽网络有效的多,这已是公认的结论。 cnn结构演化图 AlexNet 诞生于2012年,因为当时用了两个GPU(硬件设备差),所以结构图是2组并行 网络结构总共8层,5个卷积层,3个全连接层,最后输出1000个分类 分层结构图 简单解释如下: conv1:输入为224x224x3,96个shape为11x11x3的卷积核,步长为4,输出55x55x96的特征图,(224-11)/4+1,paddig为valid,故等于55,relu,池化,池化视野3x3,步长为2,这个池化稍有不同,后面解释,然后,lrn,局部归一化,后面解释,输出27x27x96   (这里输入的224在卷积时计算不方便,后来改成了227) conv2 conv3 conv4 conv5基本类似 fc6:将输出6x6x256展开成一维9216,接4096个神经元,输出4096个值,dropout,还是4096个值 fc7:写的有些问题,第一个框内应该是4096,不打紧 fc8:输出1000个类别 注意几点 1. 重叠池化:一般情况下,我们的池化视野和步长是一样的,但是这里池化视野大于步长,这样就有重叠,故称为重叠池化 2. 局部响应归一化:虽然relu不会梯度饱和,但是笔者认为lrn可以提高模型的泛化能力

MyDLNote-High-Resolution: gOctConv:100K参数实现高效显著性目标检测

一笑奈何 提交于 2021-02-01 09:11:49
Highly Efficient Salient Object Detection with 100K Parameters [ ECCV 2020 ] [ Code ] Abstract Salient object detection models often demand a considerable amount of computation cost to make precise prediction for each pixel, making them hardly applicable on low-power devices. In this paper, we aim to relieve the contradiction between computation cost and model performance by improving the network efficiency to a higher degree. We propose a flexible convolutional module, namely generalized OctConv (gOctConv) , to efficiently utilize both in-stage and cross-stages multi-scale features, while

使用多尺度空间注意力的语义分割方法

大憨熊 提交于 2021-01-30 09:37:33
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Abhinav Sagar 编译:ronghuaiyang 导读 用于自动驾驶的新的state of the art的网络。 本文提出了一种新的神经网络,利用不同尺度的多尺度特征融合来实现精确高效的语义分割。 重点 我们在下采样部分使用了膨胀卷积层,在上采样部分使用了转置卷积层,并在concat层中对它们进行拼接。 alternate blocks之间有跳跃连接,这有助于减少过拟合。 我们对我们的网络训练和优化细节进行了深入的理论分析。 我们在Camvid数据集上使用每个类的平均精度和IOU作为评价指标来评估我们的网络。 我们的模型在语义分割上优于之前的state of the art网络,在超过100帧每秒的速度下,平均IOU值为74.12。 语义分割 语义分割需要对输入图像的每个像素预测一个类,而不是对整个输入图像进行分类。为了预测图像中每个像素的内容,分割不仅需要找到输入图像中的内容,还需要找到它的位置。语义分割在自动驾驶、视频监控、医学影像等方面都有应用。这是一个具有挑战性的问题,因为要在准确性和速度之间进行权衡。由于模型最终需要在现实环境中部署,因此精度和速度都应该很高。 数据集 在训练和评估中使用了CamVid数据集。数据集提供了ground truth标签,将每个像素与32个类中的一个相关联

DPDK的基本原理、学习路线总结

て烟熏妆下的殇ゞ 提交于 2021-01-30 09:32:04
一、DPDK原理 网络设备(路由器、交换机、媒体网关、SBC、PS网关等)需要在瞬间进行大量的报文收发,因此在传统的网络设备上,往往能够看到专门的NP(Network Process)处理器,有的用FPGA,有的用ASIC。这些专用器件通过内置的硬件电路(或通过编程形成的硬件电路)高效转发报文,只有需要对报文进行深度处理的时候才需要CPU干涉。 但在公有云、NFV等应用场景下,基础设施以CPU为运算核心,往往不具备专用的NP处理器,操作系统也以通用Linux为主,网络数据包的收发处理路径如下图所示: 在虚拟化环境中,路径则会更长: 由于包处理任务存在内核态与用户态的切换,以及多次的内存拷贝,系统消耗变大,以CPU为核心的系统存在很大的处理瓶颈。为了提升在通用服务器(COTS)的数据包处理效能,Intel推出了服务于IA(Intel Architecture)系统的DPDK技术。 DPDK是Data Plane Development Kit的缩写。简单说,DPDK应用程序运行在操作系统的User Space,利用自身提供的数据面库进行收发包处理,绕过了Linux内核态协议栈,以提升报文处理效率。 DPDK是一组lib库和工具包的集合。最简单的架构描述如下图所示: 上图蓝色部分是DPDK的主要组件(更全面更权威的DPDK架构可以参考Intel官网),简单解释一下: PMD:Pool

Use HTML5 File Reader and send it to Leaflet Omnivore

别说谁变了你拦得住时间么 提交于 2021-01-28 02:55:34
问题 I'm using Leaflet JavaScript and following this tutorial: https://www.html5rocks.com/en/tutorials/file/dndfiles/ I'm building a tool for my work. It allows the user to upload a CSV file with lat/long info and plot it on a map via Leaflet Omnivore. I am able to get the html5 examples to work. But, when do I do with the data it reads in? Leaflet Omnivore requires the local path to the file being uploaded like this: var testCSV = omnivore.csv('path/to/file.csv').addTo(map).on('error', function

蓝牙协议分析(3)_BLE协议栈介绍

白昼怎懂夜的黑 提交于 2021-01-24 12:45:07
1. 前言 通过“ 蓝牙协议分析(2)_协议架构 ”的介绍,大家对蓝牙协议栈应该有了简单的了解,但是,肯定还有“似懂非懂、欲说还休”的感觉。有这种感觉太正常了,毕竟蓝牙协议是一个历史悠久又比较庞大的协议,没那么容易理解。 因此,本文将换个视角,从协议栈设计者的角度,思考如下问题: 为什么会有蓝牙协议栈(Why)? 怎样实现蓝牙协议栈(How)? 蓝牙协议栈的最终样子是什么(What)? 另外,我们知道,当前的蓝牙协议包含BR/EDR、AMP、LE三种技术,为了降低复杂度,本文将focus在现在比较热门的BLE(Bluetooth Low Energy)技术上(物联网嘛!),至于BR/EDR和AMP,触类旁通即可。 2. Why “Why”要回答的其实是需求问题,对BLE(蓝牙低功耗)来说,其需求包含两个部分:和传统蓝牙重叠的部分;BLE特有的低功耗部分。大致总结如下: 基于2.4GHz ISM频段的无线通信; 通信速率要求不高,但对功耗极为敏感; 尽量复用已有的BR/EDR技术; 组网方式自由灵活,既可以使用传统蓝牙所使用的“基于连接的星形网络(由1个master和多个slave组成)”,也可以使用“无连接的网状网络(由多个advertiser和多个scanner组成); 参与通信的设备的数量和种类众多,要从应用的角度考虑易于实现、互联互通等特性; 有强烈的安全(security