entropy

最大熵模型中的数学推导

穿精又带淫゛_ 提交于 2020-10-23 18:50:26
最大熵模型中的数学推导 0 引言 写完 SVM 之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的 算法班 ,而动笔继续写这个机器学习系列,正得益于今年10月组织的 机器学习班 。 10月26日机器学习班第6次课,邹讲最大熵模型,从熵的概念,讲到为何要最大熵、最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导。晚上我把上课 PPT 在微博上公开分享了出来,但对于没有上过课的朋友直接看PPT 会感到非常跳跃,因此我打算针对机器学习班的某些次课写一系列博客,刚好也算继续博客中未完的机器学习系列。 综上,本文结合10月机器学习班最大熵模型的PPT和其它相关资料写就,可以看成是课程笔记或学习心得,着重推导。有何建议或意见,欢迎随时于本文评论下指出,thanks。 1 预备知识 为了更好的理解本文,需要了解的概率必备知识有: 大写字母X表示随机变量,小写字母x表示随机变量X的某个具体的取值; P(X)表示随机变量X的概率分布,P(X,Y)表示随机变量X、Y的联合概率分布,P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布; p(X = x)表示随机变量X取某个具体值的概率,简记为p(x); p(X = x, Y = y) 表示联合概率,简记为p(x,y)

标签平滑Label Smoothing

生来就可爱ヽ(ⅴ<●) 提交于 2020-10-23 03:28:28
Lable Smoothing 是分类问题中错误标注的一种解决方法。 对于分类问题,特别是多分类问题,常常把向量转换成one-hot-vector(独热向量) one-hot带来的问题:(对于独热的简单解释:https://blog.csdn.net/qq_43211132/article/details/96141409) 对于损失函数,我们需要用预测概率去拟合真实概率,而拟合one-hot的真实概率函数会带来两个问题: 1)无法保证模型的泛化能力,容易造成过拟合; 2) 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大,而由梯度有界可知,这种情况很难适应。会造成模型过于相信预测的类别。 使用下面的 label smoothing 可以缓解这个问题: 原理:对于以Dirac函数分布的真实标签,我们将它变成分为两部分获得(替换)。 第一部分:将原本Dirac分布的标签变量替换为(1 - ϵ)的Dirac函数; 第二部分:以概率 ϵ ,在u(k) 中份分布的随机变量(u(k)是类别分之一) 代码: def label_smoothing(inputs, epsilon=0.1): K = inputs.get_shape().as_list()[-1] # number of channels return ((1-epsilon) * inputs) + (epsilon

视频编码器h.264和mpeg4的区别?

余生长醉 提交于 2020-10-03 03:16:11
MPEG-4编码技术 MPEG-4:MPEG-4是一个适用于低传输速率应用的方案,MPEG-4是在MPEG-1、MPEG-2基础上发展而来,是为了播放流式媒体的高质量视频而专门设计的,它可利用很窄的带度,通过帧重建技术,压缩和传输数据,以求使用最少的数据获得最佳的图像质量。 MPEG-4标准则是基于对象和内容的编码方式,和传统的图像帧编码方式不同,它只处理图像帧与帧之间的差异元素,抛弃相同图像元素,因此大大减少了合成多媒体文件的体积,从而以较小的文件体积同样可得到高清晰的还原图像。换句话说,相同的原始图像,MPEG-4编码标准具有更高的压缩比。 H.264编码技术 H.264是ITU-T国际电联与ISO国际标准化组织联合制定的视频编解码技术标准,h.264是一种高性能的视频编解码技术。 H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。 一个原始文件是102G大小的视频,经过H.264编码后变成了1个G,压缩比竟达到了102:1。因此H.264的低码率技术起到了至关重要的作用, 在用户获得高质量流畅图像的同时,大大节省了下载时间和数据流量,也大大减少了图像存储空间。 H.264是在MPEG-4技术的基础之上建立起来的,其编解码流程主要包括5个部分:帧间和帧内预测(Estimation)

Graph Analysis for Detecting Fraud_Waste_and Abuse in Healthcare Data

浪子不回头ぞ 提交于 2020-10-02 10:59:41
论文传送门 作者 帕罗奥多研究中心: Juan Liu Eric A. Bier Aaron Wilson Tomo Honda Sricharan Kumar Leilani H Gilpin Daniel Davies 主要内容 本文构造了病人、医生、药房和其他实体的异质网络,并借助了图分析技术,在时间和空间上发现异常信息(欺诈、浪费和滥用),并制作了一个系统(XPIV)。 四种异常: 个体异常 关系异常 时间或空间异常 结构异常 图分析技术类别: the ego-net approach the global structure 为了避免杂乱,可以根据一些属性只选择前 top k 个进行可视化。 使用指标: degree weight entropy ratio 有些要会有较高的 re-sale 价格,可以给予关注。 时序或地理空间推理: sink vertices source vertices heavy links 用到具体技术: 最大似然估计 传递矩阵 累计分布函数 DBSCAN 隐狄利克雷分配模型等 特征提取使用属性: Community Size Community density Average dollar amount Average anomaly score 来源: oschina 链接: https://my.oschina.net/u/4284005

立体图像编码解码

三世轮回 提交于 2020-10-01 14:28:32
根据相关参考资料说明,图像编码解码的大致结构框图如下所示: 本系统,我们主要将完成这个结构框图中介绍的各个模块。 2. 各个模块设计与仿真 function im_encode(left_name, right_name, parameter); 发送端的说明 2.1 获得左右两个图像 · MATLAB 代码 imag_L = imread( 'stereo_images/corridor1.pgm' ); imag_R = imread( 'stereo_images/corridor2.pgm' ); figure(1); subplot(121),imshow(imag_L);title( 'left' ); subplot(122),imshow(imag_R);title( 'right' ); · 仿真效果 图2 左右眼睛看到的图像 · 代码说明 通过读取两个图片,来模拟人两个眼睛所看到的图像。 2.2 Transform 模块 这个模块主要使用DCT变换,但是这里设计到一个问题,就是将两个图片信号变为一路信号的问题。就本课题而言,这里有以下几个方法实现; ·由于这两个图片是双目信号,所以可以先进行立体匹配得到一个图片,然后再接收端分解成两个双目图片; ·由小波分解进行融合得到一路信号,然后在接收端进行反变换,但是这种做法也较复杂。 ·进行图片的采样处理

采样算法哪家强?一个针对主流采样算法的比较

孤人 提交于 2020-10-01 13:33:53
论文标题: A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation 论文作者: Moin Nadeem (MIT), Tianxing He (MIT), Kyunghyun Cho (NYU), James Glass (MIT) 论文链接: https://arxiv.org/abs/2009.07243 代码链接: https://github.com/moinnadeem/characterizing-sampling-algorithms 文本生成离不开采样,一个好的采样方法可以兼顾生成文本的质量和多样性。但是,目前主流的各采样算法并没有得到充分的研究,它们的优劣也难以量化。 本文在语言模型上比较了当前主流的几个采样算法Top-K, Nucleus, Tempered,发现他们都满足三个关键性质,因此在效果上难分伯仲。 进一步的研究表明,满足这三个性质的其他采样算法也能够取得很好的效果,这就指出了文本生成所需的必要条件。 文本生成的两大要素:质量与多样性 文本生成我们之前已经讲过很多了,但是读者有没有发现,基本上所有的文本生成任务,所谓的“目标句子”都是唯一的,或者很少。 比如,一个语言模型已经生成了“The news says that”

手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定

廉价感情. 提交于 2020-09-30 05:23:59
  机器之心报道    编辑:蛋酱、杜伟、小舟    世界上从来不缺少抠图工具,但始终缺少更完美的抠图工具(尤其是对于手残党来说)。      在传统年代,人们能想到最精准的抠图方法,大概是 Photoshop 之类的专业图像处理软件,显然这种处理方式会很繁琐。随着人工智能技术的发展,从业者开始尝试将最先进的机器学习技术融入到图像处理工作之中。这些开源算法最终变成了各种各样的在线抠图程序,最重要的是——它们的操作方法非常简单且完全免费。   比如「Remove.bg」,你只需要上传图片,网站就能识别其中的主体并去除背景,最终返回一张透明背景的 PNG 格式图片。尽管在前景与背景之间边界处理上存在瑕疵,但借助 AI 来抠图确实比自己动手要便捷,不是吗?      网站地址:https://www.remove.bg/   近日,一款名为「ObjectCut」的图像处理新工具进入了大家的视野。你甚至不需事先将图片下载到本地,只需要输入图片网址,即可得到一张去除背景后的图片。      https://objectcut.com/      使用教程演示。   项目作者表示,这一工具所使用方法基于 CVPR 2019 论文《BASNet: Boundary-Aware Salient Object Detection》,并使用了一些相关的公开数据集来进行训练,包括 ECSSD、SOD

如何提高强化学习效果?内在奖励和辅助任务

随声附和 提交于 2020-09-27 16:53:24
     文字整理:智源社区 吴继芳   如何能够提高强化学习效果?   这是美国密西根大学教授Satinder Singh长期以来致力于解决的问题。在2020北京智源大会上,Satinder Singh教授对这个问题进行了深度阐释,他通过Meta-Gradient方法来学习发现以往强化学习智能体中需要手动设置的参数:内在奖励和辅助任务问题。   Satinder Singh从近期关于强化学习的两个研究工作出发,针对如何通过数据驱动的方式学习到内在奖励函数,他提出了一个学习跨多生命周期(Lifetime)内部奖励函数的Meta-Gradient框架,同时设计了相关实验证明学习到的内在奖励函数能够捕获有用的规律,这些规律有助于强化学习过程中的Exploration和Exploitation,并且可以迁移到到不同的学习智能体和环境中。   针对于如何在数据中发现问题作为辅助任务,他扩展通用辅助任务架构,参数化表示General Value Functions,并通过Meta-Gradient方法学习更新参数发现问题。实验证明这个方法可以快速发现问题来提高强化学习效果。   Satinder Singh,美国密西根大学教授,Deep Mind科学家,AAAI Fellow。主要研究兴趣是人工智能(AI)的传统目标,即构建能够学习在复杂、动态和不确定环境中具有广泛能力的自主智能体

【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)

余生长醉 提交于 2020-09-24 06:00:46
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构。这次任务所使用的深度学习框架是强大的Tensorflow。 网络搭建 第一步当然是搭建网络和计算图 其实文字识别就是一个多分类任务,比如这个3755文字识别就是3755个类别的分类任务。我们定义的网络非常简单,基本就是LeNet的改进版,值得注意的是我们加入了batch normalization。另外我们的损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1 #network: conv2d->max_pool2d->conv2d->max_pool2d->conv2d->max_pool2d->conv2d->conv2d->max_pool2d->fully_connected->fully_connected def build