图像编码

多媒体技术原理与应用考试总结<一>

早过忘川 提交于 2020-03-22 14:11:23
多媒体技术原理与应用 ------------------------------2008-12-28------------------------------------------------------------------------- <一>多媒体 多媒体分类: 感觉媒体(perception medium):各种语言,音乐,自然界的各种声音,图形,图像,计算机系统中的文字,数据和文件等. 表示媒体(representation medium):语言编码,文本编码,图像编码. 表现媒体(presentation medium):输入与输出 存储媒体(storage medium):用于存放表示媒体 传输媒体(transmission medium):通信的信息载体,有双绞线,同轴电缆,光纤. 多媒体技术及其特点: 所谓多媒体技术就是计算机交互式综合处理多种媒体信息---文本,图形,图像和声音,使多种信息建立逻辑连接,集成为一个系统并具 有交互性. 简言之,多媒体技术就是计算机综合处理声,文,图信息的技术 具有集成性,实时性和交互性. 强实时性:hard realtime 高清晰度电视:HDTV 高保真音响:HiFi 多媒体:Multimedia 计算机电视:Compuvision 电视计算机:teleputer 位映射:Bitmap 窗口:window 图符:icon

Semantic Image Inpainting with Deep Generative Models

♀尐吖头ヾ 提交于 2020-03-02 02:20:53
摘要 论文来源: CVPR 2017 论文提出的方法 :给定一个训练好的生成模型,采用提出的两个损失函数$ context-loss和prior-loss$,通过在潜在的图像流寻找与需要修复图片最接近的编码来实现修复。 优势之处: 最新的方法需要有关缺失部分的一些特定信息,而此方法不管缺失部分如何,修复都是可能实现的。 网络结构: 理论上可以使用各种 \(GAN\) 网络结构,本论文采用 \(DCGAN\) 。 数据集: 三个数据集分别为$the-Celeb-Faces-Attributes-Dataset (CelebA) , the -Street-View-House-Numbers (SVHN) 和the-Stanford-Cars-Dataset $ Code : semantic_image_inpainting 介绍 语义修复 ( \(Semantic-inpainting\) ):是指根据图像的语义信息来推断图像中任意大的缺失区域内容。 典型图像修复方法包括 :基于局部信息和非局部信息来修复图像。现在大多数的修复方法是基于单个图像修复(利用图片局部信息)而设计的,利用输入图像提供的信息,并利用image priors来解决问题。 图像修复的分类 利用局部信息修复图片: 利用图像本身的局部信息来修复图像。 方法名称 实现思想 base on total

音视频压缩编码介绍

99封情书 提交于 2020-02-22 20:40:37
1.概念: 压缩(编码) :因为未经压缩的数字视频的数据量巨大,在相对有限的存储空间和传输带宽条件下,其在互联网上的传输会有极大的不便,所以在视频的传输之前,会对视频数据和音频数据进行一定算法的压缩,这个过程又称为编码。 帧内(Intraframe)压缩 :也称为空间压缩,当压缩一帧图像时,只考虑本帧的数据而不考虑相邻帧之间的冗余信息,帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩比率,可能有一定的失真。 基于同一帧内已编码块预测,构造预测块,计算与当前块的残差,对残差、预测模式等信息进行编码。其主要去除的是 空域冗余 。 帧间(Interframe)压缩 :是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。 基于一个或多个已编码帧预测,构造预测块

H.265/HEVC的编码结构和块划分

时光总嘲笑我的痴心妄想 提交于 2020-02-17 06:15:30
一、CTU HEVC中引入了树形编码单元(Coding Tree Unit),即一帧图像可以划分为若干个互不重叠的CTU,如下图所示。 CTU的宽度和高度以一个序列参数集表示,这意味着视频序列中的所有CTU都具有相同的大小:64×64、32×32或16×16。 每个CTU由同一位置处的一个亮度CTB和两个色度CTB再加上相应的语法元素组成,尺寸由编码器指定,且可大于宏块尺寸,如下图所示。 对于一个LxL的CTU,包括一个LxL的亮度CTB和两个L/2 x L/2的色度CTB,L的值可以等于16、32或64,由SPS中指定的编码语法元素确定。 二、CTB 在高分辨率视频编码中,使用较大的CTB可以获得更好的压缩性能。一个CTB可以直接作为一个编码块CB,也可以进一步通过四叉树形式划分为多个小的CB,如下图所示。 CB的大小是可变的,亮度CB最大为64x64,最小为8x8。大CB可以提高平滑区域的编码效率,小CB可以很好的处理图像局部细节,使复杂图像的预测更加准确。 三、CU 一个亮度CB和相应的两个色度CB及对应的语法元素组成一个编码单元CU。CTU到采用基于四叉树循环分层结构进行划分,一个CTU可能只包含一个CU(没有进行划分),也可能被划分为多个CU。 四、PU和PB CB对于预测类型决策来说已经足够好了,但它仍然可能太大,无法存储运动矢量(帧间预测)或帧内预测模式。因此

计算机基础(6)

∥☆過路亽.° 提交于 2020-02-16 21:20:11
下面是莫尔斯编码的 示例 ,大家把 1 看作是短点(嘀),把 11 看作是长点(嗒)即可。 莫尔斯编码一般把文本中出现最高频率的字符用 短编码 来表示。如表所示,假如表示短点的位是 1,表示长点的位是 11 的话,那么 E(嘀)这一数据的字符就可以用 1 来表示,C(滴答滴答)就可以用 9 位的 110101101 来表示。在实际的莫尔斯编码中,如果短点的长度是 1 ,长点的长度就是 3,短点和长点的间隔就是1。这里的长度指的就是声音的长度。比如我们想用上面的 AAAAAABBCDDEEEEEF 例子来用莫尔斯编码重写,在莫尔斯曼编码中,各个字符之间需要加入表示时间间隔的符号。这里我们用 00 加以区分。 所以,AAAAAABBCDDEEEEEF 这个文本就变为了 A * 6 次 + B * 2次 + C * 1次 + D * 2次 + E * 5次 + F * 1次 + 字符间隔 * 16 = 4 位 * 6次 + 8 位 * 2次 + 9 位 * 1 次 + 6位 * 2次 + 1位 * 5次 + 8 位 * 1次 + 2位 * 16次 = 106位 = 14字节。 所以使用莫尔斯电码的压缩比为 14 / 17 = 82% 。效率并不太突出。 用二叉树实现哈夫曼算法 刚才已经提到,莫尔斯编码是根据日常文本中各字符的出现频率来决定表示各字符的编码数据长度的。不过,在该编码体系中

关键点的描述符KeyPoint对象

夙愿已清 提交于 2020-02-07 23:52:54
corners:包含大量本地信息的像素块,并能够在另一张图中被快速识别 keypoints:作为 corners 的扩展,它将像素块的信息进行编码从而使得更易辨识,至少在原则上唯一 descriptors:它是对 keypoints 进一步处理的结果。通常它具有更低的维度,从而使得图像块能够在另一幅不同的图像中被更快地识别 KeyPoints对象 为了描述关键点,Opencv 关键点的类定义如下: class cv :: KeyPoint { public : cv :: Point2f pt ; // coordinates of the keypoint float size ; // diameter of the meaningful keypoint neighborhood float angle ; // computed orientation of the keypoint (-1 if none) float response ; // response for which the keypoints was selected int octave ; // octave (pyramid layer) keypoint was extracted from int class_id ; // object id, can be used to cluster

关于视频的一些概念

南楼画角 提交于 2020-02-05 00:42:18
http://www.samirchen.com/video-concept/ 关于视频的一些概念 2016-01-28 视频相关概念 视频文件格式 文件格式这个概念应该是我们比较熟悉的,比如我们常见的 Word 文档的文件格式是 .doc ,JPG 图片的文件格式是 .jpg 等等。那对于视频来说,我们常见的文件格式则有: .mov 、 .avi 、 .mpg 、 .vob 、 .mkv 、 .rm 、 .rmvb 等等。文件格式通常表现为文件在操作系统上存储时的后缀名,它通常会被操作系统用来与相应的打开程序关联,比如你双击一个 test.doc 文件,系统会调用 Word 去打开它。你双击一个 test.avi 或者 test.mkv 系统会调用视频播放器去打开它。 同样是视频,为什么会有 .mov 、 .avi 、 .mpg 等等这么多种文件格式呢?那是因为它们通过不同的方式实现了视频这件事情,至于这个不同在哪里,那就需要了解一下接下来要说的「视频封装格式」这个概念了。 视频封装格式 视频封装格式,简称视频格式,相当于一种储存视频信息的容器,它里面包含了封装视频文件所需要的视频信息、音频信息和相关的配置信息(比如:视频和音频的关联信息、如何解码等等)。一种视频封装格式的直接反映就是对应着相应的视频文件格式。 下面我们就列举一些文件封装格式: AVI 格式 ,对应的文件格式为

数字图像处理及应用(期末复习整理)

社会主义新天地 提交于 2020-02-01 17:08:32
一、图像及其类型 图像(image)的定义是: 在一般意义下,一幅图像是一个物体或对象(object)的另一种表示。亦即图像是其所表示物体或对象信息的一个直接描述和浓缩表示。简而言之,即图像是物体在平面坐标上的直观再现。一幅图像包含了所表示物体的描述信息和特征信息,或者说图像是与之对应的物体或抽象的一个真实表示,这个表示可以通过某些技术手段实现。 数字图像处理(digital image processing): 又称为计算机图像处理,它是通过计算机对图像进行去除噪声、增强、变换、复原、分割、特征提取、识别等运算与处理。 图像的分类: 可见图像(visible image): 是指视觉系统可以直接看见的图像,这也是大多数人在日常生活中所见到的和所理解的图像,这一类图像一般通过照像、手工绘制等传统方法获得,通常计算机不能直接处理,但是经过数字化处理后可变为数字图像。 物理图像(physical image): 所反映的是物体的电磁波辐射能,包括可见光和不可见光图像。 数字图像(maths image) :指由连续函数或离散函数生成的抽象图像,其中离散函数所生成的图像就是计算机可以处理的数字图像。 其他相关概念: 计算机图形学(computer graphic): 是指利用计算机技术将概念或数学描述所表示的物体(非实物)图像进行处理和显示的过程。 计算机视觉(computer

基于深度学习的图像超分辨率方法 总结 2018.6

不打扰是莪最后的温柔 提交于 2020-01-16 08:24:00
基于深度学习的SR方法 懒得总结,就从一篇综述中选取了一部分基于深度学习的图像超分辨率方法。 原文:基于深度学习的图像超分辨率复原研究进展 作者:孙旭 李晓光 李嘉锋 卓力 北京工业大学信号与信息处理研究室 来源:中国知网 1.基于前馈深度网络的方法 前馈深度网络是典型的深度学习模型之一。网络中各个神经元从输入层开始,接收前一级输入,并输入到下一级, 直至输出层。整个网络中无反馈, 可用一个有向无环图表示。 在深度学习的SR问题中,前馈深度网络能够较好地学习低分辨率图像到高分辨率图像之间的对应关系。在输入层中,它采用卷积的方法提取输入图像的局部特征模式,单向传递给隐含层, 随着隐含层网络层数的加深而学习得到更深层级的特征;最后,由输出层得到重建图像。典型的前馈深度网络包括多层感知器和卷积神经网络(CNN)。 按前馈深度网络的网络类型可以分为以下几类:基于卷积神经网络的方法 (Super resolution using convolution neural network,SRCNN) ;基于极深网络的方法 (Very deep networks for SR,VDSR) ;基于整合先验的卷积神经网络的方法 (SR-CNN with Prior,SRCNN-Pr) ;基于稀疏编码网络的方法(Sparse coding based network,SCN) 和基于卷积稀疏编码的方法

Android直播技术之(二) : 渲染处理/编码数据等介绍

北战南征 提交于 2020-01-15 19:24:20
1.渲染处理 这里所说的渲染处理主要是从相机中采集的数据进行二次处理也就是常说的美颜(美颜的概念值通过一定的算法对原始数据图像进行二次处理并强化图像效果,不限于去掉不协调边缘/边缘检测等),市面上比较好的美颜厂商有商汤/FaceUnity等,而自己做美颜封装,可用的开源库主要是GPUImage GPU工作原理指图像运算工作的微处理器,GPU主要利用显卡对图像的顶点坐标,通过图元组配进行光栅化/顶点着色/片元着色等一系列管线操作 OpenGl ES(开源嵌入式图像处理框架)它是一套图形与硬件的接口,用于把处理好的图像显示到屏幕上 GPUImage是一个基于OpenGL ES 2.0 的图像和视频处理的宽平台框架,提供多样的图像处理滤镜,支持相机和摄像机实时滤镜,内置超百种滤镜效果,且能够自定义图像处理,而滤镜处理的原理就是把静态图像或视频的每一帧进行图形变换后显示出来,它的本质是像素点的坐标和颜色变化 下面简单介绍下GPUImage处理画面的原理: GPUImage采用链式处理画面,通过addTarget函数为链条添加每一个环节对象,处理完一个target就会把上个环节处理好的图像数据传递给下一个target去处理,这被称为GPUImage处理链.如:墨镜原理,从外界传来光线,会经过墨镜过滤,再传给我们的眼睛,这样我们就能感受到大白天也会乌黑一片了 一般的target可分为两类