隐马尔可夫

工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

天大地大妈咪最大 提交于 2020-08-16 02:56:03
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。 视频链接 过去我们经常提非结构化数据,其实结构化数据也是现在数据分析的一大方向。比如时序结构,工业上大量的传感器、物联网数据。再就是移动互联网的时空数据,一些观测数据。还有一些序列数据,它跟时序数据不一样,可能并不是连续的,比如一些交易数据,今天取钱,明天去哪儿消费,这些在一些欺诈识别里面非常重要,特别是网络入侵,你做一系列的事件,通常可能导致某个事件的发生,通过一些事件序列,通常可以发现行为异常等。另外一些是Networks网络数据,比如社交网络数据,还有一些合作数据,比如谁和谁通常一起发论文等等。结构化数据也是一个需要深入研究的领域。 以工业为例。工业有什么特点呢,首先是先验知识。工业里面,先验知识比较多,不像我们在互联网里面做推荐,做用户画像,我对用户的一些了解,包括人的认知都是非常宏观。工业里面的都非常微观,比如一些动态方程,一些运行机理,这些知识如果用统计学的联合概率分布等来刻画还是不够充分。而且工业系统通常是一个工控系统

语音信号处理之语音特征提取(1)机器学习的语音处理

本小妞迷上赌 提交于 2020-08-14 13:16:00
本文首先是将 Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between 这篇2016年4月21号的文章 翻译了一下,然后讲出一点自己的理解和注释。 机器学习的语音处理:滤波器组,梅尔频率倒谱系数(MFCC)以及两者之间的区别 语音处理在任何语音系统中都扮演着重要的角色,无论它是自动语音识别(ASR)还是说话者识别等等。 长期以来,梅尔频率倒谱系数(MFCC)是非常受欢迎的功能。 但是最近,滤波器组正变得越来越流行。 在这篇文章中,我将讨论滤波器组和MFCC,以及为什么滤波器组变得越来越流行。 计算滤波器组和MFCC涉及相同的过程,在这两种情况下,都将计算滤波器组,并通过一些额外的步骤可以获得MFCC。 简而言之,信号会通过预加重滤波器。 然后将其切成(重叠的)帧,并将窗口函数应用于每个帧; 之后,我们在每个帧上进行傅立叶变换(或更具体地说是短时傅立叶变换),并计算功率谱; 然后计算滤波器组。 为了获得MFCC,可将离散余弦变换(DCT)应用于滤波器组,以保留多个所得系数,而其余系数则被丢弃。 两种情况的最后一步是平均归一化。 建立 在本文中,我从此处使用了一个16位PCM wav文件,称为“ OSR

用hmmlearn学习隐马尔科夫模型HMM

可紊 提交于 2020-08-14 09:03:47
    在之前的 HMM系列 中,我们对隐马尔科夫模型HMM的原理以及三个问题的求解方法做了总结。本文我们就从实践的角度用Python的hmmlearn库来学习HMM的使用。关于hmmlearn的更多资料在 官方文档 有介绍。 1. hmmlearn概述     hmmlearn安装很简单,"pip install hmmlearn"即可完成。     hmmlearn实现了三种HMM模型类,按照观测状态是连续状态还是离散状态,可以分为两类。GaussianHMM和GMMHMM是连续观测状态的HMM模型,而MultinomialHMM是离散观测状态的模型,也是我们在HMM原理系列篇里面使用的模型。     对于MultinomialHMM的模型,使用比较简单,"startprob_"参数对应我们的隐藏状态初始分布$\Pi$, "transmat_"对应我们的状态转移矩阵$A$, "emissionprob_"对应我们的观测状态概率矩阵$B$。     对于连续观测状态的HMM模型,GaussianHMM类假设观测状态符合高斯分布,而GMMHMM类则假设观测状态符合混合高斯分布。一般情况下我们使用GaussianHMM即高斯分布的观测状态即可。以下对于连续观测状态的HMM模型,我们只讨论GaussianHMM类。     在GaussianHMM类中,"startprob_

《大型互联网企业安全架构》读书笔记

梦想与她 提交于 2020-08-13 12:03:13
安全理念 IT风险安全 信息安全 标准:ISO27001 云安全ISO27017 隐私安全ISO27018 生产网安全(DevSecOps) 业务开发(Dev) 运维(Ops)阶段 业界理念最佳实践 阿里:安全融入体系设计、自动化监控与响应、红蓝对抗与持续改进 安全架构理论 P2DR模型 策略保护检测响应 IPDRR模型 IATF核心思想是纵深防御战略 CGS框架 强调4大功能:治理,保护,检测,响应与恢复 ASA 自适应安全架构 :组织检测响应与预测。主要体现在预测这一部分,借助如UEBA来分析学习 iACD 集成式自适应网络防御: 基本思想是通过soar来实现集成式的自适应安全架构 网络韧性架构 大型安全体系建设指南 初期实施快速消减策略。 一:清理webshell, 二:部署统一管理的EDR安全产品,生产环境下统一使用堡垒机进行审计管理。 三:通过弱口令扫描器检测公司员工账号和内网所有涉及密码的服务系统。 iso27001规定信息安全管理体系的要求,iso27002提高实践指导 BSiMM由软件安全架构,软件安全小组,软件安全计划组成。 BSIMM之于软件安全,ISO27001之于信息安全 威胁情报 GOSINT威胁情报收集处理框架,借助官方API收集威胁情报 Spiderfoot 自动收集各种威胁情报信息。 查询综合性威胁情报比较好的工具有IBM X-Forcee

HMM-维特比算法

本秂侑毒 提交于 2020-08-12 17:05:21
HMM-维特比算法理解与实现 HMM-前向后向算法理解与实现(python) HMM-维特比算法理解与实现(python) 解码问题 给定观测序列 O = O 1 O 2 . . . O T O=O1O2...OT,模型 λ ( A , B , π ) λ(A,B,π),找到最可能的状态序列 I ∗ = { i ∗ 1 , i ∗ 2 , . . . i ∗ T } I∗={i1∗,i2∗,...iT∗} 近似算法 在每个时刻 t t 选择最可能的状态,得到对应的状态序列 根据 HMM-前向后向算法 计算时刻 t t 处于状态 i ∗ t it∗ 的概率: i ∗ t = a r g m a x [ γ t ( i ) ] , t = 1 , 2 , . . . T γ t ( i ) = α i ( t ) β i ( t ) ∑ N i = 1 α i ( t ) β i ( t ) it∗=argmax[γt(i)],t=1,2,...Tγt(i)=αi(t)βi(t)∑i=1Nαi(t)βi(t) 但是无法保证得到的解是全局最优解 维特比算法 维特比算法的基础可以概括为下面三点(来源于吴军:数学之美): 如果概率最大的路径经过篱笆网络的某点,则从起始点到该点的子路径也一定是从开始到该点路径中概率最大的。 假定第 t 时刻有 k 个状态,从开始到 t 时刻的 k 个状态有 k

HMM-前向后向算法

冷暖自知 提交于 2020-08-09 02:38:16
基本要素 状态 \(N\) 个 状态序列 \(S = s_1,s_2,...\) 观测序列 \(O=O_1,O_2,...\) \(\lambda(A,B,\pi)\) 状态转移概率 \(A = \{a_{ij}\}\) 发射概率 \(B = \{b_{ik}\}\) 初始概率分布 \(\pi = \{\pi_i\}\) 观测序列生成过程 初始状态 选择观测 状态转移 返回step2 HMM三大问题 概率计算问题(评估问题) 给定观测序列 \(O=O_1O_2...O_T\) ,模型 \(\lambda (A,B,\pi)\) ,计算 \(P(O|\lambda)\) ,即计算观测序列的概率 解码问题 给定观测序列 \(O=O_1O_2...O_T\) ,模型 \(\lambda (A,B,\pi)\) ,找到对应的状态序列 \(S\) 学习问题 给定观测序列 \(O=O_1O_2...O_T\) ,找到模型参数 \(\lambda (A,B,\pi)\) ,以最大化 \(P(O|\lambda)\) , 概率计算问题 给定模型 \(\lambda\) 和观测序列 \(O\) ,如何计算 \(P(O| \lambda)\) ? 暴力枚举 每一个可能的状态序列 \(S\) 对每一个给定的状态序列 \[P(O|S,\lambda) = \prod^T_{t=1} P(O_t|s_t,

10_隐马尔可夫模型

故事扮演 提交于 2020-08-08 09:38:12
  今天是2020年3月13日星期五。不知不觉已经在家待了这么多天了,从上一节EM算法开始,数学推导越来越多,用mathtype码公式真的是太漫长了。本来该笔记是打算把《统计学习方法》这本书做详细的解读,起初面对书里大量的数学推导,感到非常恐惧。假期“空窗”时间不少,才有了细嚼慢咽学习的机会。其实很大的原因是自己掌握的东西太少,知道的算法太少,所以才对这本书恐惧。买了一直放着不愿意学。现在到隐马尔可夫模型,再有一章条件随机场,监督学习部分就结束了。这一个月来,最大的收获是知道了“怎么学”。   新的章节抛出一个新的算法模型,往往丈二和尚摸不着头脑,什么都是新的。越是拖延进度越慢,更不能一口吃个胖子指望看一遍就能懂。书读百遍,其意自见,一遍不懂就再看一遍,一遍有一遍的收获。但这个过程千万不要盯着一本书看,一定要多找博客,多看知乎、CSDN,保持审视的态度,保留自己的见解。另外,我是喜欢直接看文字,实在不懂了才去翻视频看,觉得这种模式挺适合我。   学到第十章,发现书中的很多东西,没必要面面俱到,要适当的取舍和放过。因为毕竟这本书不是一次性消耗品,是值得深究和研习的。第一次不懂的东西,完全可以学习完所有章节,建立大的思维格局后,再重新考虑小细节。   接下来的所有章节,从例子出发,引入各个概念;手写推导过程;图解算法流程;最后实现代码。掰扯开来,其实也就是三个问题:该模型是什么样子的

语音识别——一份简短的技术综述

丶灬走出姿态 提交于 2020-08-06 16:36:28
转自: https://zhuanlan.zhihu.com/p/53264756 大家好!又到了每周一狗熊会的深度学习时间了。在上一讲中,小编给大家介绍了经典的 seq2seq,以及著名的注意力模型,并且小编在这些理论的基础上给出一个基于seq2seq和注意力模型的机器翻译实例。本讲小编将和大家继续将目光放宽,对广义的自然语言处理应用领域之一的语音识别进行一次简单而又相对完整技术综述。 1 概述 自动语音识别(Automatic Speech Recognition,ASR),也可以简称为语音识别。说新领域也有点夸张,因为语音识别可以作为一种广义的自然语言处理技术,是用于人与人、人与机器进行更顺畅的交流的技术。语音识别目前已使用在生活的各个方面:手机端的语音识别技术,比如苹果的 siri;智能音箱助手,比如阿里的天猫精灵,还有诸如科大讯飞一系列的智能语音产品等等。 为了能够更加清晰的定义语音识别的任务,我们先来看一下语音识别的输入和输出都是什么。大家都知道,声音从本质是一种波,也就是声波,这种波可以作为一种信号来进行处理,所以语音识别的输入实际上就是一段随时间播放的信号序列,而输出则是一段文本序列。 图1 语音识别的输入与输出 将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块

隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数

心不动则不痛 提交于 2020-08-05 01:59:36
     隐马尔科夫模型HMM(一)HMM模型      隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率     隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数      隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列     在本篇我们会讨论HMM模型参数求解的问题,这个问题在HMM三个问题里算是最复杂的。在研究这个问题之前,建议先阅读这个系列的前两篇以熟悉HMM模型和HMM的前向后向算法,以及 EM算法原理总结 ,这些在本篇里会用到。在李航的《统计学习方法》中,这个算法的讲解只考虑了单个观测序列的求解,因此无法用于实际多样本观测序列的模型求解,本文关注于如何使用多个观测序列来求解HMM模型参数。 1. HMM模型参数求解概述     HMM模型参数求解根据已知的条件可以分为两种情况。     第一种情况较为简单,就是我们已知$D$个长度为$T$的观测序列和对应的隐藏状态序列,即$\{(O_1, I_1), (O_2, I_2), ...(O_D, I_D)\}$是已知的,此时我们可以很容易的用最大似然来求解模型参数。     假设样本从隐藏状态$q_i$转移到$q_j$的频率计数是$A_{ij}$,那么状态转移矩阵求得为:$$A = \Big[a_{ij}\Big], \;其中a_{ij} = \frac{A_{ij}}{\sum\limits_{s=1