预测编码

信息抽取——实体关系联合抽取

杀马特。学长 韩版系。学妹 提交于 2020-03-04 05:24:23
目录 简介 实体关系联合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures Model 2: Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme Model 3: Joint entity recognition and relation extraction as a multi-head selection problem Model 4: 基于DGCNN和概率图的轻量级信息抽取模型 Model 5: Entity-Relation Extraction as Multi-turn Question Answering Model 6: A Novel Hierarchical Binary Tagging Framework for Joint Extraction of Entities and Relations 小结 简介 通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题: 两个任务的解决过程中没有考虑到两个子任务之间的相关性

语音信号的线性预测编码(LPC)

十年热恋 提交于 2020-02-26 22:28:56
语音信号的线性预测编码( LPC ) by Goncely 1 线性预测技术概述 线性预测编码是语音处理中的核心技术,它在语音识别、合成、编码、说话人识别等方面都得到了成功的应用。其核心思想是利用输入信号 u 和历史输出信号 s 的线性组合来估计输出序列 s(n) : 式中的 a i 和 b j 被称为预测系数,其传递函数可表示为: 该式为有理函数,在基于参数模型的谱估计法和系统辨识研究中,根据极点和零点数目的不同,它存在三种情况:一种是只有零点没有极点的情况,分母 U(z) 为单位 1 ,称为滑动平均模型,即 MA ( Moving-Average )模型;另一种是只有极点没有零点的,分子 S(z) 为常数,称为自回归模型,即 AR ( Auto-Regressive )模型;第三种是既有零点又有极点的,称为自回归滑动平均模型,即 ARMA ( Auto-Regressive Moving-Average )模型。这三种模型中对于复杂的频谱特性的描述能力最强的应该是 ARMA 模型,但它的参数估计存在许多复杂问题。全极点模型的参数估计十分简便,而且往往只需要很少几个极点就可以相当好地逼近一种频谱或一种系统的频率响应,因为它的传递函数相当于一个递归数字滤波器,即 IIR 滤波器。众所周知,用一个三四阶的 IIR 数字滤波器来逼近希望的频率响应幅度特性就可能相当于一个二十多阶的

机器学习

梦想的初衷 提交于 2020-02-24 20:35:57
机器学习 概述 什么是机器学习 机器学习是一门能够让编程计算机从数据中学习的计算机科学。 一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统。 自我完善,自我增进,自我适应。 为什么需要机器学习 自动化的升级和维护 解决那些算法过于复杂甚至跟本就没有已知算法的问题 在机器学习的过程中协助人类获得对事物的洞见 机器学习的问题 建模问题 所谓机器学习,在形式上可这样理解:在数据对象中通过统计或推理的方法,寻找一个接受特定输入X,并给出预期输出Y的功能函数f,即Y=f(X)。 评估问题 针对已知的输入,函数给出的输出(预测值)与实际输出(目标值)之间存在一定的误差,因此需要构建一个评估体系,根据误差的大小判定函数的优劣。 优化问题 学习的核心在于改善性能,通过数据对算法的反复锤炼,不断提升函数预测的准确性,直至获得能够满足实际需求的最优解,这个过程就是机器学习。 机器学习的种类 监督学习、无监督学习、半监督学习、强化学习 有监督学习:用已知输出评估模型的性能。 无监督学习:在没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分。 半监督学习:先通过无监督学习划分类别,再根据人工标记通过有监督学习预测输出。 强化学习:通过对不同决策结果的奖励和惩罚

音视频压缩编码介绍

99封情书 提交于 2020-02-22 20:40:37
1.概念: 压缩(编码) :因为未经压缩的数字视频的数据量巨大,在相对有限的存储空间和传输带宽条件下,其在互联网上的传输会有极大的不便,所以在视频的传输之前,会对视频数据和音频数据进行一定算法的压缩,这个过程又称为编码。 帧内(Intraframe)压缩 :也称为空间压缩,当压缩一帧图像时,只考虑本帧的数据而不考虑相邻帧之间的冗余信息,帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩比率,可能有一定的失真。 基于同一帧内已编码块预测,构造预测块,计算与当前块的残差,对残差、预测模式等信息进行编码。其主要去除的是 空域冗余 。 帧间(Interframe)压缩 :是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。 基于一个或多个已编码帧预测,构造预测块

H.265/HEVC的编码结构和块划分

时光总嘲笑我的痴心妄想 提交于 2020-02-17 06:15:30
一、CTU HEVC中引入了树形编码单元(Coding Tree Unit),即一帧图像可以划分为若干个互不重叠的CTU,如下图所示。 CTU的宽度和高度以一个序列参数集表示,这意味着视频序列中的所有CTU都具有相同的大小:64×64、32×32或16×16。 每个CTU由同一位置处的一个亮度CTB和两个色度CTB再加上相应的语法元素组成,尺寸由编码器指定,且可大于宏块尺寸,如下图所示。 对于一个LxL的CTU,包括一个LxL的亮度CTB和两个L/2 x L/2的色度CTB,L的值可以等于16、32或64,由SPS中指定的编码语法元素确定。 二、CTB 在高分辨率视频编码中,使用较大的CTB可以获得更好的压缩性能。一个CTB可以直接作为一个编码块CB,也可以进一步通过四叉树形式划分为多个小的CB,如下图所示。 CB的大小是可变的,亮度CB最大为64x64,最小为8x8。大CB可以提高平滑区域的编码效率,小CB可以很好的处理图像局部细节,使复杂图像的预测更加准确。 三、CU 一个亮度CB和相应的两个色度CB及对应的语法元素组成一个编码单元CU。CTU到采用基于四叉树循环分层结构进行划分,一个CTU可能只包含一个CU(没有进行划分),也可能被划分为多个CU。 四、PU和PB CB对于预测类型决策来说已经足够好了,但它仍然可能太大,无法存储运动矢量(帧间预测)或帧内预测模式。因此

基因组注释

≯℡__Kan透↙ 提交于 2020-02-16 01:46:21
基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1 重复序列的识别。 1.1 重复序列的研究背景和意义:重复序列可分为 串联重复序列 (Tendam repeat)和 散在重复序列 (Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。 1.2 重复序列识别的发展现状:目前,识别重复序列和转座子的方法为 序列比对和从头预测 两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。 1.3 重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面

关于视频的一些概念

南楼画角 提交于 2020-02-05 00:42:18
http://www.samirchen.com/video-concept/ 关于视频的一些概念 2016-01-28 视频相关概念 视频文件格式 文件格式这个概念应该是我们比较熟悉的,比如我们常见的 Word 文档的文件格式是 .doc ,JPG 图片的文件格式是 .jpg 等等。那对于视频来说,我们常见的文件格式则有: .mov 、 .avi 、 .mpg 、 .vob 、 .mkv 、 .rm 、 .rmvb 等等。文件格式通常表现为文件在操作系统上存储时的后缀名,它通常会被操作系统用来与相应的打开程序关联,比如你双击一个 test.doc 文件,系统会调用 Word 去打开它。你双击一个 test.avi 或者 test.mkv 系统会调用视频播放器去打开它。 同样是视频,为什么会有 .mov 、 .avi 、 .mpg 等等这么多种文件格式呢?那是因为它们通过不同的方式实现了视频这件事情,至于这个不同在哪里,那就需要了解一下接下来要说的「视频封装格式」这个概念了。 视频封装格式 视频封装格式,简称视频格式,相当于一种储存视频信息的容器,它里面包含了封装视频文件所需要的视频信息、音频信息和相关的配置信息(比如:视频和音频的关联信息、如何解码等等)。一种视频封装格式的直接反映就是对应着相应的视频文件格式。 下面我们就列举一些文件封装格式: AVI 格式 ,对应的文件格式为

3D-HEVC中的编码关键技术

旧时模样 提交于 2020-01-21 01:54:39
图(1) 3D编码框架图 3D-HEVC采用多视角加深度图( MVD )的格式来表示编码的3D视频。其中包括独立视角的编码( unmodified )上图中的蓝色部分,和修改的HEVC编码器用于减少冗余度。 1. 视差补偿预测(DCP) 图(2) DCP as an alternative to motion-compensated prediction MCP是参考同一视角下的以编码图像的帧间编码,而DCP是参考不同的视角下视角间的编码如上图中所示,其中的R代表搜索的参考序列及顺序。 2. 层间运动参数预测 图(3)层间运动参数预测 由于MVD的不同视角是从不同的方向得到3D画面的,因此不同的视角间的非常相似,相关性很大。所以不同视角的同一画面的运动参数及其相似,即可以从编码的块中得到当前块的运动参数。如上图所示。 3. 层间残差预测 图(4) 层间残差预测 如上图所示,Dc为当前视角下的当前块,Bc为参考视角下的同时刻的的参考块。Dr为同一视角下的帧间预测,Vd表示运动向量(MCP)。由于Bc与Dc是不同视角下的同一时刻下的预测,所以两个块有相同的运动信息。因此,Bc在参考视角中的时间预测Br可以通过Bc加上Vd运动信息得到;Bc的残差加上Vd运动信息,再乘以加权值就可以得到当前的的残差。 4. 深度模型模式(DMM) 由于深度图代表的是物体离镜头的远近

(生信)RNA蛋白编码预测软件-CNCI的使用

做~自己de王妃 提交于 2020-01-18 17:35:51
(生信)RNA蛋白编码预测软件-CNCI的使用 CNCI简介: CNCI是由中科院研发的一款基于SVM(支持向量机)的LncRNA预测软件,它可以不依赖于已知的RNA注释信息来进行预测,同时其对不完全转录和反义的RNA有着良好的分类效果,本文将根据github的说明总结一些简单的操作。 软件安装与准备: linux 32位或者linux 64位系统 python 2.74或者2.0版本(详细安装步骤见:https://blog.csdn.net/sherri_du/article/details/51810221) CNCI下载地址:https://github.com/www-bioinfo-org/CNCI#install-cnci CNCI的安装 git clone git@github . com : www - bioinfo - org / CNCI . git cd CNCI unzip libsvm - 3.0 . zip cd libsvm - 3.0 make cd . . 程序简介: 共有三个.py程序可供使用,分别是:compare.py / CNCI.py / filter_novel_lincRNA 下面是官网说明书里面对它们的解释: 1, compare.py : compare the merged/assembled transcripts

视频编解码 基本概念:GOP

泄露秘密 提交于 2020-01-08 19:12:51
前言 产品开发要求添加视频剪辑功能,翻阅有关的文档,查到了GOP(group of pictures)这个概念。 解析 GOP说白了就是两个I帧之间的间隔.比较说GOP为120,如果是720p60的话,那就是2s一次I帧. ​ 在视频编码序列中,主要有三种编码帧:I帧、P帧、B帧。 ​ ● I帧即Intra-coded picture(帧内编码图像帧),不参考其他图像帧,只利用本帧的信息进行编码 ​ ● P帧即Predictive-codedPicture(预测编码图像帧),利用之前的I帧或P帧,采用运动预测的方式进行帧间预测编码 ​ ● B帧即Bidirectionallypredicted picture(双向预测编码图像帧),提供最高的压缩比,它既需要之前的图 像帧(I帧或P帧),也需要后来的图像帧(P帧),采用运动预测的方式进行帧间双向预测编码   在视频编码序列中,GOP即Group of picture(图像组),指两个I帧之间的距离,Reference(参考周期)指两个P帧之间的距离(如下图3.1)。一个I帧所占用的字节数大于一个P帧,一个P帧所占用的字节数大于一个B帧(如下图3.1所示)。 I、P、B帧示意图   所以在码率不变的前提下,GOP值越大,P、B帧的数量会越多,平均每个I、P、B帧所占用的字节数就越多,也就更容易获取较好的图像质量;Reference越大