《数学之美》读书笔记

匿名 (未验证) 提交于 2019-12-02 23:49:02

看了吴军的《数学之美》,感触颇多。吴军先生能通过简单的故事和诙谐的语言,将晦涩难懂的数学原理解释清楚,让人再次感受到数学的博大精深。读了这本书之后,发现曾经只和成绩挂钩的数学原理还能这么玩,这么接地气。为此,摒弃应试的动机,下一步计划重学一遍概率论、线代、高数等数学,以提高自己。本文是个人读《数学之美》记录下阅读时的最直接的感受,希望后期能适时翻阅,思想上和知识层面上共同指导自己。


第二版前言

今天,除了初等数学(加减乘除),大家对数学,尤其是纯粹的数学用途产生了怀疑。很多大学所学的数学,可能一辈子都没有机会应用,几年后就差不多忘光了。原因:----因为不懂得数学的应用就在我们生活中,没感受到数学之美,数学也就真的白学了。

要了解世界级学者他们的平凡和卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。


第1章 文字和语言VS数字和信息

文字只是信息的载体,而非信息本身。

罗塞塔3份文本的数据保存形式,为自然语言处理提供两点指导:

  1. 信息冗余是信息安全的保障
  2. 语言的数据,称为语料。尤其在翻译中,语料的对比,是从事机器翻译的基础。

古时候的文言文和白话文,其实就是类似于今天信道压缩与否的区别,比如书中


从规则到统计的过渡过程,是在很长的历史内完成的。

基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。统计模型的思想,可充分发挥数据的优势,大大提高效果。


第3章 统计语言模型

统计模型的核心思想是 马尔可夫模型(当前状态只和前面的一个或多个状态有关)

而这个,可以用样本的统计方法,近似估计各种条件概率。这期间,需要进行模型的训练和零概率问题的平滑处理

模型的训练

平滑处理

训练参数的一个直接的办法是增加数据量,但是仍然会遇到零概率事件。我们本这种模型称为“不平滑”,必须解决。

古德-图灵估计

如果训练语料和模型应用的领域脱节,那么模型的效果将大打折扣。

训练数据通常越多越好,虽然通过平滑过渡可以解决平滑问题。但是,片面追求大规模数据,是没有意义的。

训练语料的噪声高低或多或少会对模型效果产生影响。在训练之前,有时需要对训练的数据进行预处理。一般,少量的随机噪声清除的成本比较高,通常不处理。但是大量的噪声,还是有必要进行处理的,而且他们也比较号处理,比如网页中的大量制表符。


第4章 谈谈分词

分词的二义性问题是语言歧义性的一部分,郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。

最好的分词方法,应该保证分完词后的这个句子出现的概率最大。统计语言模型可以算出这个句子出现的概率。统计语言可以计算出每种分词后句子出现的概率。(马尔可夫)

分词,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。

一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词,这样效果会更好些。而在语音识别中,“北京大学”一般是被分成两个词。比如网页搜索中,小的粒度比大的粒度效果更好。因此,不同的应用,应该有不同的分词系统。

中文分词是一个已经解决的问题,提升的空间是微乎其微的。只要使用统计模型,效果就差不到哪去。英文等西方语言,本身就没有分词问题,除非要做文本分析找词组。


文章来源: https://blog.csdn.net/LWHGMAN/article/details/96829906
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!