图像融合 | 易学教程

YOLO v2 / YOLO9000论文详解

阅读更多关于 YOLO v2 / YOLO9000论文详解

YOLO9000:Better, Faster, Stronger 声明：笔者翻译论文仅为学习研究，如有侵权请联系作者删除博文，谢谢！源论文地址： https://arxiv.org/abs/1612.08242 注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方，斜体部分为笔者的一些想法，因水平所限，部分笔触可能有不实和错误之处，敬请广大读者批评指正，让我们一起进步~ YOLO v2 和 YOLO 9000 可以看成是两部分，其中v2是对v1的各个部分进行技术上的加持和改进；9000是对数据集和检测类别进行扩展。这里我们重点说YOLO v2部分。 v2相对于v1来说，速度更快、精度更高。具体改进措施有以下几点： 1. 各卷积层后添加BN层； 2. YOLO2在采用 224×224 图像进行分类模型预训练后，再采用 448×448 的高分辨率样本对分类模型进行微调（10个epoch），使网络特征逐渐适应 448×448 的分辨率。然后再使用 448×448 的检测样本进行训练，缓解了分辨率突然切换造成的影响； 3. 引入anchor boxes（召回率上升，准确率略微下降），448×448 -> 416×416 通过使用K-means聚类方法筛选出一个网格cell里预测5个锚点框最合适；通过给anchor

图像分类经典论文阅读笔记3:GoogLeNet-Going deeper with convolutions

阅读更多关于图像分类经典论文阅读笔记3:GoogLeNet-Going deeper with convolutions

1.概述 GoogLeNet(Inception V1)采用模块化结构，包括500万个参数(AlexNet参数量的十二分之一)，网络包括5层卷积层(每层由卷积层或Inception结构堆叠构成)和一个全连接层，共计 22 层。因此，在计算资源或内存有限时，GoogLeNet是比较好的选择。论文研究目标：利用赫布(Hebbian)定理和多尺度处理直觉设计增加深度和宽度并提高计算资源利用率的稀疏网络结构；赫布定理：神经元一起激发，一起连接(即视觉信息在不同尺度上处理然后聚合)；评价准则：top-1错误率和top-5错误率：6.67%(取得ILSVRC2014比赛分类项目冠军)；数据库：ILSVRC2014，预处理操作：零均值化。 2.网络结构一般来说，提升网络性能最直接的办法就是增加网络的深度和宽度，深度是指网络层次数量、宽度是指神经元数量。但是这种方法存在以下问题： (1)参数太多，如果训练数据集有限，容易产生过拟合； (2)网络越大，参数越多，计算复杂度越大； (3)网络越深，容易出现梯度消失问题，难易优化模型。解决上述问题的方法自然就是在增加网络深度和宽度的同时减少网络参数，那么如何减少参数？ (1)使用2个3X3卷积代替1个5X5卷积，使用3个3X3卷积代替1个7X7卷积(感受野相同)； (2)通过1X1卷积降维； (3

Flutter Widgets 之 ShaderMask

阅读更多关于 Flutter Widgets 之 ShaderMask

ShaderMask可以让我们将Shader用于任何一个控件上，比如在Text上使用渐变就可以使用ShaderMask来实现： ShaderMask( shaderCallback: (Rect bounds) { return RadialGradient( center: Alignment.topLeft, radius: 1.0, colors: <Color>[Colors.yellow, Colors.deepOrange], tileMode: TileMode.mirror, ).createShader(bounds); }, blendMode: BlendMode.srcATop, child: Text('老孟，一枚有态度的程序员',style: TextStyle(fontSize: 30),), ) 效果： shaderCallback 需要返回一个Shader对象，可以通过渐变相关类直接生成Shader： RadialGradient(...).createShader(rect) blendMode 属性是融合方式，child是目标图像(dst),Shader是源图像(src)，融合方式介绍：英文官方介绍中文不错的翻译更多相关阅读： Flutter系列文章总览 Flutter Widgets 之 Expanded和Flexible

Flutter Widgets 之 ShaderMask

阅读更多关于 Flutter Widgets 之 ShaderMask

论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》

阅读更多关于论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》

论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》 1. 成像过程建模 2. 光度标定原理 3. KLT光流法 4. 实验结果《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》前几天读了很多篇和自动曝光控制相关的paper，那些paper讲主要是如何定义曝光程度的评价标准以及如何根据评价标准实现自动曝光控制；图像传感器与信号处理——自动曝光算法论文阅读——《Exposure Control using Bayesian Optimization based on Entropy Weighted Image Gradient》对于SLAM来讲，尤其是直接法，通常需要满足光度不变性这个条件。而自动曝光虽然能够使得输入图像信息最大化，但是却破坏了光度不变形这个条件，因此，对于SLAM系统来说

语义SLAM综述

阅读更多关于语义SLAM综述

语义SLAM综述摘要 SLAM技术在计算机视觉和机器人领域中占有重要地位。传统的SLAM框架采用了较强的静态世界假设，便于分析。大多基于小区域静态环境。在大规模的动态环境下，它们大多难以获得较好的性能，系统的准确性、快速性仍需加强。如何应对动态环境是一个非常重要而又备受关注的问题。现有的面向动态场景的SLAM系统要么只利用语义信息，要么只利用几何信息，要么以松散耦合的方式天真地组合它们的结果。近年来，一些研究集中在语义信息与视觉SLAM的结合上。当前现状视觉 SLAM（visual SLAM）是以图像作为主要环境感知信息源的SLAM系统，可应用于无人驾驶、增强现实等应用领域，是近年来的热门研究方向。典型视觉SLAM算法以估计摄像机位姿为主要目标，通过多视几何理论来重构3D地图。为提高数据处理速度，部分视觉 SLAM算法是首先提取稀疏的图像特征，通过特征点之间的匹配实现帧间估计和闭环检测，如基于SIFT（scaleinvariant feature transform）特征的视觉 SLAM和基于ORB（oriented FAST and rotated BRIEF）特征的视觉。SIFT 和 ORB 特征凭借其较好的鲁棒性和较优的区分能力以及快速的处理速度，在视觉 SLAM 领域受到广泛应用。但是，人工设计的稀疏图像特征当前有很多局限性

语义分割车道线，来自两篇论文的融合算法

阅读更多关于语义分割车道线，来自两篇论文的融合算法

语义分割车道线，来自两篇论文的融合算法 IEEE IV 2018论文《LaneNet: Real-Time Lane Networks for Autonomous Driving》。这篇文章主要内容是，如何克服车道切换和车道数的限制。关于Software Loss，另外一篇文章《Semantic Instance Segmentation with a Discriminative loss function》。原理是：提出了Lannet网络结构，即通过训练神经网络进行端到端的车道检查，将车道作为实例分割来实现。下面是Lannet网络结构图： Lanenet使用一个共享的encoder，对输入图像进行处理，得到2个branch：嵌入式和语义分割的branch。嵌入branch可以将不同的车道线区分为不同的instance；因为只需要考虑车道线，因此语义分割的结果是二值化图像；然后对2个branch做聚类，最终得到结果。通常情况下，车道线像素被投影成“鸟瞰图”。使用一个固定的转换矩阵。可是，因为变换参数对所有图像都是固定的，所以，当遇到非地面例如，在斜坡上，会有问题。为了解决类似问题，提出了H-Network可以估算输入图像上的“理想”透视变换的参数。投影方法H-Net 将输入的RGB图像作为输入，使用LaneNet得到输出的实例分割结果，然后将车道线像素使用H

FFmpeg图像处理深度应用

阅读更多关于 FFmpeg图像处理深度应用

本演讲主要讲解如何通过FFmpeg作为一个主要的接口，将OpenGL、OpenCV以及诸如Tensorflow等AI框架以第三方库的形式，作为FFmpeg的一个模块进行快速的业务开发，从而简化音视频图像处理的开发流程，为听众打开一个新思路。文 / 刘歧整理 / LiveVideoStack 审校/ 赵军感谢大家关注FFmpeg在OnVideo以及AI方面的一些工作，我是刘歧，是OnVideo联合创始人的同时也担任技术负责人，同时也是FFmpeg的官方顾问，FFmpeg GSoC 2019 Mentor，FFmpeg决策委员会的委员，以及腾讯云TVP。我主要的兴趣在嵌入式开发、图形图像及音视频流媒体处理、分布式系统设计等领域。FFmpeg官方有我的联系方式，大家有问题可以和我随时交流。关于FFmpeg深度学习场景下的应用，目前看来，颇具价值且实用。 1. 契机首先介绍一下我们的公司，OnVideo是一个音视频在线编辑云平台，上图是制作人员的处理过程中效果预览这个功能的一个展示。OnVideo云平台可以支持很多的图像处理相关功能，但实际上它并不限于视频和图片相关，它大量的使用了FFmpeg的一些内置功能以及AI相关的框架与算法，其具体功能大约如下图所示：另外一个需要附带提及的事情是我在2019年Google Summer of

PS笔记

阅读更多关于 PS笔记

<< photoshop>>学习笔记第一章 PS设计基础 1.1工作区和工作流程 ①人像图片亮度的调节方法一：使用亮度/对比度进行调节点击菜单中的“图像”，展开后有“调整”这一项，之后在“调整”中会有“亮度/对比度”这一项，之后点击它，会弹出一个窗口，其中就有亮度和对比度的调节。方法二：使用色阶进行调节点击菜单中的“图像”，展开后有“调整”这一项，之后在“调整”中会有“色阶”这一项，之后点击它会弹出窗口随便拉动输入色阶的三个滑杆可调节亮度（两者方法的区别：方法一调整是比较粗略的，而且调整是有极限的，并且亮度调节的数字没有具体意义。而相对于方法二来说，具体的数字是有充分的意义的。方法三：获得图像亮度选区+混合模式点击“通道”面板会出现窗口按住ctrl键，点击RGB通道缩略图，获得这张图的亮度选区，回到图层面板，按下ctrl+j键新建一个图层，之后选择混合模式中的“滤色”，这样就可以增强亮度了。如果亮度增加不足，可多复制新建图层，达到增加亮度的效果啦（这种方法较前两种方法来说更为精确，因为它采用了混合模式，而且这种方式改的图片不会出现白色只要图中没有白色或曝光） 1.2色彩基础与吸管工作组 ①数字设计的色彩基础知识 1、色轮第一种色轮的主色是红、绿、蓝，对应的是光。第二种色轮的主色是红、蓝、黄，对应的是染料。主要使用第二种色轮 2

深度学习、机器学习与NLP的前世今生

阅读更多关于深度学习、机器学习与NLP的前世今生

随着深度学习的发展，自然语言处理领域的难题也得到了不断突破，AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)”。目前深度学习在自然语言处理上主要有哪些应用？在工程实践中是否会有哪些瓶颈？以下内容是根据达观数据联合创始人高翔在《深度学习与文本智能处理》直播的总结。一、为什么做文本挖掘什么是NLP？简单来说： NLP的目的是让机器能够理解人类的语言，是人和机器进行交流的技术。它应用在我们生活中，像：智能问答、机器翻译、文本分类、文本摘要，这项技术在慢慢影响我们的生活。 NLP的发展历史非常之久，计算机发明之后，就有以机器翻译为开端做早期的NLP尝试，但早期做得不是很成功。直到上个世纪八十年代，大部分自然语言处理系统还是基于人工规则的方式，使用规则引擎或者规则系统来做问答、翻译等功能。第一次突破是上个世纪九十年代，有了统计机器学习的技术，并且建设了很多优质的语料库之后，统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术。从2006年深度学习开始，包括现在图像上取得非常成功的进步之后，已经对NLP领域领域影响非常大。达观划分的NLP技术层次当年上小学时有一本书叫《字词句篇与达标训练》，里面讲了字、词、句、篇，我们开始学写字，词是最基础的一级

订阅图像融合