高斯混合模型

聚类之K均值聚类和EM算法

风流意气都作罢 提交于 2021-01-24 13:39:25
这篇博客整理K均值聚类的内容,包括: 1、K均值聚类的原理; 2、初始类中心的选择和类别数K的确定; 3、K均值聚类和EM算法、高斯混合模型的关系。 一、K均值聚类的原理 K均值聚类(K-means)是一种基于中心的聚类算法,通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。 1、定义损失函数 假设我们有一个数据集{x 1 , x 2 ,..., x N },每个样本的特征维度是m维,我们的目标是将数据集划分为K个类别。假定K的值已经给定,那么第k个类别的中心定义为μ k ,k=1,2,..., K,μ k 是一个m维的特征向量。我们需要找到每个样本所属的类别,以及一组向量{μ k },使得每个样本与它所属的类别的中心μ k 的距离平方和最小。 首先,这个距离是什么距离呢?聚类需要根据样本之间的相似度,对样本集合进行划分,将相似度较高的样本归为一类。度量样本之间相似度的方法包括计算样本之间的欧氏距离、马氏距离、余弦距离或相关系数,而K均值聚类是用欧氏距离的平方来度量样本之间的相似度。欧式距离的平方公式如下: 把所有样本与所属类的中心之间距离的平方之和定义为损失函数: 其中r nk ∈{0,1},n=1,2,...,N,k=1,2,...,K,如果r nk =1,那么表示样本x n 属于第k类,且对于j≠k,有r nj =0,也就是样本x n

聚类 高维聚类 聚类评估标准 EM模型聚类

十年热恋 提交于 2021-01-24 13:01:31
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的 难点 在于:   1、适用于普通集合的聚类算法,在高维数据集合中效率极低   2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简 ,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;( 降维 ) 2)高维聚类算法 ,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以看做维度约简的推广; 子空间聚类:   特征选择算法综述: http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html    不同的簇对应不同的子空间 ,并且每个子空间维数不同,因此也不可能一个子空间就可以发现所有的簇。选取与给定簇密切相关的维,然后在对应的子空间进行聚类。子空间聚类需要自定义一种搜索策略和评测标准来筛选出需要聚类的簇   传统的特征选择算法可以用来确定相关维。 CLIQUE算法(综合了基于密度和基于网格的算法)   CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密单元和稀疏单元。如果映射到它的对象数超过该密度阈值

Generative Adversarial Nets[AAE]

我只是一个虾纸丫 提交于 2020-12-16 10:24:50
本文来自《Adversarial Autoencoders》,时间线为2015年11月。是大神Goodfellow的作品。本文还有些部分未能理解完全,不过代码在 AAE_LabelInfo ,这里实现了文中2.3小节,当然实现上有点差别,其中one-hot并不是11个类别,只是10个类别。 本文提出“对抗自动编码器(AAE)”,其本质上是自动编码器和GAN架构的合体,通过将AE隐藏层编码向量的聚合后验与任意先验分布进行匹配完成变分推论(variational inference)。将聚合后验与先验进行匹配确保从该先验任何部分都能够生成有意义的样本。AAE的解码层可以看成是一个深度生成模型,可以将强加的先验映射到数据分布上。本文并介绍如何将AAE用在如半监督分类,图像分类,无监督聚类,维度约间和数据可视化。 本文主要是介绍了几种AAE的应用: Basic AAE (文中2到2.1之间的部分) Incorporatiing Label Information in the Adversarial Regularization (文中2.3小节) Supervised AAE (文中4小节) Semi-supervised AAE (文中5小节) Unsupervised Clustering with AAE (文中6小节) Dimensionality Reduction with

以kaldi中的yesno为例谈谈transition

亡梦爱人 提交于 2020-12-07 03:32:42
在基于GMM-HMM的传统语音识别里,比音素(phone)更小的单位是状态(state)。一般每个音素由三个状态组成,特殊的是静音(SIL)由五个状态组成。这里所说的状态就是指HMM里的隐藏的状态,而每帧数据就是指HMM里的观测值。每个状态可以用一个GMM模型表示(这个GMM模型的参数是通过训练得到的)。在识别时把每帧数据对应的特征值放进每个状态的GMM里算概率,概率最大的那个就是这帧对应的状态。再从状态得到音素(HMM负责),从音素得到词(字典模型负责),从词得到句子(语言模型负责),最终完成识别。可以从一个状态转到另一个状态,即状态之间存在转移(transition)。Transition是kaldi里一个非常重要的概念,相关的有transition-state、transition-index、transition-id等,初一看云里雾里不太好理解,其实它们都是根据topo图(/s5/data/lang/topo)得到的。今天就基于yesno的例子对它们做一个讲解。 先看yesno中的topo图(见下图),它有三个音素:SIL、yes、no (yes和no均作为一个音素处理),id 分别为1、2、3. SIL有5个状态,id为0—4 ,5为结束态。yes/no分别有三个状态,id为0—2 ,3为结束态。 SIL中状态0—3 分别有4条状态转移路径(或者叫转移弧),以状态0为例

GAN生成的评价指标 Evaluation of GAN

醉酒当歌 提交于 2020-12-04 15:52:27
传统方法中,如何衡量一个generator ?—— 用 generator 产生数据的 likelihood,越大越好。 但是 GAN 中的 generator 是隐式建模,所以只能从 P_G 中采样但没法根据 pdf 算 likelihood。 一个方法是把从 P_G 中采样得到的点当作是一个高斯分布的 mean,所有的 sample 都共享一样的 variance,然后就共同构成了 GMM 来估计 pdf ,然后就可以算 likelihood 了。困难是,要sample 几个点(要几个高斯)才估计的准?而且也不一定 likelihood 高,生成的质量就高。总之,这个方法问题还是很多的 比较客观的方法是,拿一个已经训练好的分类器来做判别 还需要从 diverse 的方向来衡量(避免发现不了 mode collapse 的问题),生成一组数据得到一组不同的 distributions,把它们平均起来。如果分布比较平均说明比较 diverse,不会太单一。 综合一下这两个原则,就得到了 inception score:把某个单一的生成数据喂给现成的分类器,属于某一类的概率越大越好;同时把所有的生成数据喂给现成的分类器,产生一堆 distribution 然后做平均,越平滑越好。 来源: oschina 链接: https://my.oschina.net/u/4371092

音频工具kaldi部署及模型制作调研学习

女生的网名这么多〃 提交于 2020-12-02 05:46:09
语音识别简介 语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、计算机语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以计算机自动将人类的语音内容转换为相应的文字。 按照不同纬度如下分类: 按词汇量(vocabulary)大小分类: 小词汇量:几十个词; 中等词汇量:几百个到上千个词 大词汇量:几千到几万个 按说话的方式(style)分类: 孤立词(isolated words) 连续(continously) 按声学(Acoustic)环境分类: 录音室 不同程度的噪音环境 按说话人(Speaker)分类: 说话人相关(Speaker depender) 说话音素(Phoneme):单词的发音都是由音素构成,对于英语,常用的音素集是 CMU 的 39 个音素构成的音素集。而对于汉语,一般直接用全部声母和韵母作为音素集,另外汉语识别还要考虑音调。 The CMU Pronouncing Dictionary. 声学模型 :是将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型分数。 语言模型 :通过从训练语料

面试了8家公司,他们问了我这些机器学习题目......

淺唱寂寞╮ 提交于 2020-11-26 13:57:02
翻译 | 王柯凝 出品|人工智能头条(公众号ID: AI_Thinker ) 【 导读 】 今年年初以来,作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息,因而撰写了此文。希望你读后能够有所收获! 首先自我介绍一下: 我在机器学习(语音分析、文本分析和图像分析领域应用)领域有4年以上的从业经验。总的来说,我认为这个领域的大多数工作职位主要包括文本分析(自然语言处理)和图像分析(计算机视觉)。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位,可以带领一个深度学习或机器学习团队做一些有趣的项目。 下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。 ▌ 公司一:基于全球性服务的某公司(面试时长:20-25min) 你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类? 假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。 你如何阅读扫描版pdf文件或图像格式的书面文件的内容? 朴素贝叶斯为什么被称为“朴素”? 请详细介绍一下朴素贝叶斯分类器。 什么是深度学习

面试AI算法岗,你被要求复现顶会论文了嘛?

可紊 提交于 2020-11-15 08:02:01
加入AI行业拿到高薪仅仅是职业生涯的开始。 现阶段AI人才结构在不断升级,这也意味着如果目前仍然停留在调用一些函数库,则在未来1-2年内很大概率上会失去核心竞争力的 。 几年前如果熟练使用TensorFlow,同时掌握基本的AI算法就可以很容易找到一份高薪的工作,但现在不一样了,AI岗位的要求越来越高,对知识的深度也提出了更高的要求。 如果现在一个 面试官 让你从零推导SVM的Dual、从零实现CRF、推导LDA、设计一个QP问题、从零编写XLNet、编写GCN/GNN、改造SkipGram模型、用一天时间复现一篇顶级会议.... 这些要求一点都不过分。相反,连这些基本内容都有些吃力,就需要重新审视一下自己的核心技术壁垒了。 目前AI人才竞争越来越激烈, “调参侠” 的时代已慢慢过去,这些事情其实根本不需要AI工程师来做,未来的研发工程师就可以承担这些了! 我相信不少人曾经遇到过以下的情况或者困惑: 从事AI行业多年,但技术上 总感觉不够深入 , 而且很难再有提升; 对每个技术点了解,但 不具备体系化的认知 , 无法把它们串起来; 停留在使用模型/工具上 , 很难基于业务场景来提出新的模型; 对于机器学习 背后的优化理论、前沿的技术不够深入; 计划从事尖端的科研、研究工作、 申请AI领域研究生、博士生; 打算进入最顶尖的AI公司 比如Google,Facebook,Amazon,

【免费领取】halcon-GMM模板匹配源代码

梦想与她 提交于 2020-10-28 15:16:08
小师妹最近学习视觉的时候发现个很有意思的视觉项目,之前有在展会上也看到过,当时感觉很利害的样子,现在当你会了,知道这个识别匹配的时候,你就会觉得:也就那样吧! 在前面小师妹也分享了不少关于匹配的源代码: 免费领取:halcon双模板匹配源码 用源码教你做模板匹配(免费领源码) 免费领取:XLD(轮廓识别)识别源码 (红色的是视觉源代码,可点击下载领取) 不过小师妹会分享出来给大家学习参考,那就是GMM模板匹配 快领取回去学习吧! 您的分享、转发是对小师妹最大的鼓励 领 取 方 法 具 体 步 骤 1. 长按下方二维码识别关注或微信关注公众号 ind400(机器人配视觉) 2. 进入公众号,点击左下角的键盘图标,到聊天界面 3. 就像和朋友聊天一样,输入关键字“ GMM匹配 ”,然后按下发送 4. 按照提示进行操作,立即获得 《 GMM匹配源代码 》 ! 5. 加微信相互交流学习 guangguang5061,如领取有问题也可联系 注:内容仅供学习,禁止商用 本文分享自微信公众号 - 小白学视觉(NoobCV)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4581492/blog/4408673

商业智能bi行业现状,BI应用的3个层次

爷,独闯天下 提交于 2020-10-28 08:52:12
​商业智能bi行业现状。传统的报表系统技术上已经相当成熟,大家熟悉的Excel等都已经被广泛使用。但是,随着数据的增多,需求的提高,传统报表系统面临的挑战也越来越多。 数据太多,信息太少 密密麻麻的表格堆砌了大量数据,到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息。 难以交互分析、了解各种组合 定制好的报表过于死板。例如,我们可以在一张表中列出不同地区、不同产品的销量,另一张表中列出不同地区、不同年龄段顾客的销量。业务问题经常需要多个角度的交互分析。 难以挖掘出潜在的规则 报表系统列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大,产品之间相互关联的程度如何?越是深层的规则,对于决策支持的价值越大,但是,也越难挖掘出来。 难以追溯历史,数据形成孤岛 业务系统很多,数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大。    商业智能bi行业现状?随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着新的技术。目前国内报表系统领先者Smartbi报表的创新技术能较好的满足繁杂的业务需求。数据分析和数据挖掘的时代正在来临。值得注意的是,数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表