强推啊。
永远无法知道概率论的利用会如此之大。
摘要:
不同的文字系统在记录信息上的能力是等价的。
文字只是信息的载体,而非信息本身。
机器翻译和语言识别,全都靠的是数学,更准确的是统计。
20世纪60年代,基于乔姆斯基形式语言的编译器技术得到了很大的发展,计算机高级程序语言都可以概括成上下文无关的文法,这是一个在算法上可以在多项式时间内解决的问题。
上下文无关算法可以想看计算理论导论...
基于统计的语言处理的核心模型是通信系统加隐含马尔可夫模型。
统计语言模型:马尔可夫假设:(二元模型)
假设任意一个词出现的概率只同它前面的词有关。
因为有了大量机读文本,也就是专业人士讲的语料库,只要数一数Wi-1,Wi这对词在统计的文本中前后相邻出现了多少次,以及Wi-1本身在同样的文本中出现了多少次,然后用两个数分别除以语料库的大小,即可得到这些词或者二元组的相对频度。 根据大数定理,只要统计量足够,相对频度就等于概率。 如上是统计语言模型的理论。用来解决复杂的语音识别、机器翻译等问题。
假定文本中的每个词Wi和前面的N-1个词有关,而与更前面的词无关。这样当前词wi的概率只取决于前面的N-1个词 P(Wi-N+1,Wi-N+2,...,Wi-1).
这种假设被称为N-1阶马尔可夫假设,对应的语言模型称为N元模型。N=1的一元模型实际上是一个上下文无关模型,也就是假定当前词出现的概率与前面的词无关。而在实际应用中最多的是N=3.
空间复杂度为|v|的N-1次幂。|v|是一种语言词典的词汇量。
使用语言模型需要知道模型中所有的条件概率,称之为模型的参数。
如果用直接的比值计算概率,大部分条件概率依然是零,这种模型我们称之为不平滑,在实际应用中,统计语言模型的零概率问题是无法回避的,必须解决。
训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题。
古德提出在统计中相信可靠的统计数据,面对不可信的统计数据打折扣的一种概率估计方法,同时将折扣出来的那一小部分概率给予未看见的事件。有一个重新估算概率的公式。称为 古德-图灵估计。原理为:对于没有看见的事件,我们不能认为它发生的概率就是0,因此我们从概率的总量中,分配一个很小的比例给予这些没有看见的事件。这样一来,看见的那些事件的概率总和就要小于1了。因此,需要将所有看见的事件概率调小一点,至于小多少,要根据“越是不可信的统计折扣越多”的方法进行。
隐含马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐含马尔可夫模型也是机器学习主要工具之一。它需要一个训练算法(鲍姆-韦尔奇算法)和使用时的编码算法(维特比算法)。
信息的度量,信息熵,越小,表明数据越纯。
信息量就等于不确定性的多少。