《数学之美》-----读后感

邮差的信 提交于 2020-01-26 15:58:37

       一直以来都不喜欢看书,比较偏爱数学,觉得只要知道思路不用记太多长篇大论的东西。本科学了四年的数学与应用数学,我从不怀疑数学的价值,但是天天面对复杂的定理和证明,一度时间让我很怀疑数学的实用性,毕竟很多人并不需要知道每一步是怎末推导的,只需要把对应的公式记住就完事了。

       大三决心考研的时候,便当了逃兵,转到了统计,考研复试是我第一次感受到本科四年的数学知识在我身上的实际体现,复试笔试的题目好多都是本科只有数学专业才学的特别难的概率论和数理统计的课后习题,庆幸自己没有偷懒,所有的习题都自己做了一遍。随着接触的统计和自然语言处理的知识越来越多,我越来越感受到数学的实用性,那些复杂的推导和证明可以在实际中更快更清晰的解决更多问题。

       在朋友和老师的推荐下,便读了吴军老师的数学之美,更是加深了我对数学的认知,真正感受到了从统计学到天文学,数学不仅无处不在,而且无法替代。本文主要整理数学之美里面一些比较实际的问题,作为自己读书后的总结。

1.如何衡量分词效果的好坏?

       在英文中词是最小的语义单位,用空格自动隔开。但是在中文中,字是最小的语义单位,不仅不同的字意义不同,而且相同的字也可能存在不同的意义。为了解决一字多义问题,在对中文自然语言处理问题进行分析前,需要进行分词。在不同的语境下,需要不同的分词方式,如何衡量分词效果的好坏成为了一个重要的问题。常用的标准主要有:

  • 分词的一致性: 即分词后的结果与人工标注的结果是否一致
  • 分词的粒度: 在不同的自然处理任务中,不同的粒度对最终任务的效果影响不同

2.如何构建网络爬虫?

  • 利用深度优先遍历(BFS)和宽度优先遍历(DFS)算法爬取网页数据
  • 页面的分析和URL的提取
  • 记录已经爬取过的网页,防止重复爬取

3.影响搜索引擎的因素

  • 完备的索引
  • 对网页质量的衡量
  • 用户偏好
  • 确定一个用户查询与网页的相关性的方法
           

4.余弦相似度在自然语言处理中的应用

利用新闻之间的相似性,可以将相似的新闻进行聚类。
但是当数据量比较大时,计算起来压力就比较大。

  • 计算时可以将一些重复计算的东西保存下来,比如向量的长度这些值
  • 文本向量大多比较稀疏,计算复杂度取决于两个向量中非零元素的个数
    的最小值。
  • 可以删除虚词,减少不必要的计算。
  • 可以考虑位置的重要性,比如开头和结尾的词语或语句一般对语义的影响较大。
           

5.如何判断两个集合是否相同?

  • 最笨的方法:一一进行对比
  • 稍好点: 将集合中的元素进行排序,排序后进行比较
  • 再好点:利用散列表(字典)存储一个集合中的元素,然后再判断另外一张表中的元素是否存在
    该散列表中。
  • 完美的方法:计算两个集合的指纹进行比较。
    不同元素的指纹相同的概率特别小,在实际工程中完全可以忽略。为什么?

***利用伪随机数生成器,生成随机数,生成的次数越多,重复的概率就越高。 但是将集合映射到128位的二进制数,指纹重复的概率特别低,一千八百亿亿次 才有可能重复一次。***

6.密码

  • 好的密码必须做到根据已知的明文和对应的密文推断不出新的密文内容。
  • 公钥用来加密,私钥用来解密,在数学形式是相互关联的。
  • 世界上没有永远破不了的密码,关键看他有多长时间的有效期(通常50年就相当不错了)。

7.解决噪音干扰(反作弊)的基本思路

  • 从信息源出发,加强自身的抗干扰能力
  • 从传输来看,过滤掉噪声,还原真实信息
  • 找到作弊的动机,从本质上解决作弊问题

8.如何衡量搜索结果的权威性?

  • 对搜索结果中的每个网页正文和标题进行句法分析,提取相关的主题及对信息源的描述
  • 利用互信息(熵)计算主题和信息源之间的相关性
  • 对主题短语进行聚合
  • 对一个网站中所有的网页进行聚合,比如按照子目录进行聚类

9.数学模型的重要性

  • 一个正确的数学模型在形式上是简单的
  • 一个正确的模型开始可能还不如一个精心修补的错误模型,但是如果我们认为方向是对的,
    就应该一直坚持下去。

10.拼音输入法

       输入汉字的时间 = 击键的次数 * 汉字编码的平均长度
       汉字编码主要包括对拼音的编码和消除歧义性的编码

       早期利用声韵母的双拼输入法,虽然节省了编码长度,但是输入汉字的时间并没有减慢。

  • 增加了编码的歧义性,键盘上只有26个字母,但是声韵母加一块五十多个
  • 双拼的方法多了一道将拼音拆成声韵母的工序,增加了击键时间
  • 容错性比较低:切分为声韵母,编码上相似性较低,经常出现几页都找不到想要的输入

目前广泛使用的是全拼输入法,虽然汉字编码较长,但是用户的输入速度并不慢。

  • 不需要刻意学习
  • 输入自然,不会中断思维
  • 编码长度虽然长,但是容错性好
    香农第一定理:任何编码的长度都不能小于它的信息熵
    全拼输入法的汉字平均编码长度为2.98

11.哈希表的存储效率一般不超过50%?

  • 字典的底层结构就是散列表,查找效率为O(1)
  • 哈希表为了保证查询时间,存储效率一般不超过50%。
  • 存储效率 = 实际存储的元素数目/哈希表的长度
  • 哈希表大多采用开放定址法解决冲突问题,每次查找的平均次数大概为:
  • search = 1/(1-alpha),alpha为装填因子
  • alpha = 实际存储的元素数目/哈希表的长度,当alpha大于50%时,查找的次数可能就会大于等于2.

后记

       数学之美介绍的东西远远不止这些,还有数学在天文学和语音识别等领域中的应用,另外,书中还介绍了统计语言模型、隐马尔可夫、贝叶斯网络、EM算法、图论等在自然语言处理中的应用,如果对自然语言处理感兴趣,强烈建议读一下吴军老师的数学之美。

参考链接

       哈希表存储效率50%的原因
       吴军,《数学之美》
数学之美

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!