熵值

决策树算法(一)

拟墨画扇 提交于 2020-01-13 07:02:35
一、决策树算法 1.决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构(if-else)结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 决策时:是一种树形结构,其实每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。 2.决策树的分类原理 1.熵 1.1概念 物理学上,熵 Entropy是“混乱”程度的量度。 系统越有序,熵值越低,系统越无序,熵值越高。 1948年香农提出了信息熵(Entropy)的概念: 信息理论 1.从信息的完整性来说: 当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散熵值越大。 2.从信息有序性来说: 当数据量是一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 ”信息熵“(information entropy)是度量样本集合纯度最常用的一种指标,用来描述信息的不确定程度。 3.决策树的划分依据——信息增益 3.1 概念 信息增益:以某种特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entropy(前) - entropy(后) 定义与公式 信息熵的计算: 条件熵的计算: 其中: D^v D*

about DCT---转载

浪子不回头ぞ 提交于 2019-11-27 23:21:20
about DCT......... MPEG采用了Ahmed(一个巨牛的数学家) 等人于70年代提出的离散余弦变换(DCT-Discrete Cosine Transform)压缩算法,降低视频信号的空间冗余度。 DCT将运动补偿误差或原画面信息块转换成代表不同频率分量的系数集,这有两个优点:其一,信号常将其能量的大部分集中于频率域的1个小范围内,这样一来,描述不重要的分量只需要很少的比特数;其二,频率域分解映射了人类视觉系统的处理过程,并允许后继的 量化过程满足其灵敏度的要求。 关于这一点在我手头的教程中有详尽的描述,让我直接引用: 视频信号的频谱线在0-6MHz范围内,而且1幅视频图像内包含的大多数为低频频谱线,只在占图像区域比例很低的图像边缘的视频信号中才含有高频的谱线。因此,在视频信号数字处理时,可根据频谱因素分配比特数:对包含信息量大的低频谱区域分配较多的比特数,对包含信息量低的高频 谱区域分配较少的比特数,而图像质量并没有可察觉的损伤,达到码率压缩的目的。然而,这一切要在低熵(Entropy)值的情况下,才能达到有效的编码。能否对一串数据进行有效的编码,取决于每个数据出现的概率。每个数据出现的概率差别大,就表明熵值低, 可以对该串数据进行高效编码。反之,出现的概率差别小,熵值高,则不能进行高效编码。视频信号的数字化是在规定的取样频率下由A/D转换器对视频电平转换而来的