书籍推荐——一本老书,吴军老师《数学之美》

梦想的初衷 提交于 2020-01-30 09:52:10

本文始发于个人公众号:TechFlow


1


这几天春节,因为疫情和拜年,所以文章停更了四天。但是这四天里我并没有偷懒,我利用间歇的时间读了一本久仰大名但是一直没有时间阅读的书。它就是吴军老师的著作——《数学之美》。

之前早在我还在上大学的时候,就听线性代数的老师给我们推荐过这本书。但是当时并没有什么印象,也没有读书的习惯,所以当年并没有读这本书。以我现在的眼光来看,当时如果读了,也未必能够读懂。后来一次偶然的机会,在“得到”APP当中听过吴军老师的一些讲座,给了我很多启发。


后来默默百度了吴军老师的简历,发现他曾经当过Google的高级资深研究员,并且还担任过腾讯副总裁,是一个不折不扣的业内神犇。因此,我这次是抱着朝圣的心态来阅读的。


读完之后,果然不负期望,感受非常多,收获满满,因此今天特地单独开篇文章介绍本书。


首先,我先说对我感触最大的一点。其实并不是书中讲的数学或者是机器学习模型,也不是某个神人科学家的事迹,而是吴军老师对待教育的观点


2


在自然语言处理领域,有一个非常牛的开创人,名叫贾里尼克。他是犹太人,生于二战之前,由于全家受到二战的影响举家移民到了美国。他们刚到了美国的时候非常贫困,以至于他不过十几岁大,还需要进工厂打工弥补家用。所以他大部分时间不能花在学习上,和其他同学相比,他的课业落下了一大半。


不仅如此,在他成长的路上,他的志向也几次发生变化。一开始的时候,他想要学医当一名医生。但是由于医学院学费过于高昂,才转而去的麻省理工的电机工程。虽然发生了这么多波折,但是有一点没有变,他一直想要通过自己的努力走向成功


介绍贾里尼克的故事,并不是想给大家灌鸡汤或者是强调努力的重要性。而是想要说明吴军老师的一个观点,就是对于一个人来说,小学和初中其实并不需要花那么多时间读书,因为这个阶段的知识总量就那么多,早点不学晚点也来得及补上。


并且更重要的一点是,随着一个人年龄的增长,他的学习能力也在不断的提升。一个在初中阶段需要花费500个小时的课程,到了大学可能只需要100个小时。因此早期勤奋积累下的优势其实非常有限,经常会发生在小学和初中成绩平平的学生到了高中和大学迅速起飞逆袭的故事。


更重要的是,学习是一个终生的事情,不是到了大学或者某个阶段就结束。所以对于一个十几岁的孩子来说,更重要的是培养他们的性格、素养,以及找到属于自己的志向。也就是古人常说的早立志。


这个年代天才少年并不罕见,像是前段时间写出《冰雪奇缘》特效物理引擎的胡渊明,还有在ACM界鼎鼎大名的陈立杰和楼天城,无一不是早在少年时期就立志要在编程领域有所建树

只有远大的志向才能引导出源源不断的努力,拿我个人而言,我目前的两大志向,一个是做好TechFlow,另一个是成为算法领域一流的技术专家。明确了这两点之后,我个人的意志以及专注都比之前提升了非常多。


3


在我读这本书之前,我觉得业内的书籍易懂门槛低的往往浅薄,干货会比较少,而内容深刻的往往晦涩,容易劝退对于新手体验不好。想要在市面上找一本既好懂又内容深刻干货十足的书非常困难,但是这本书非常难得的同时做到了这两点。


这本书虽然叫做《数学之美》,听起来劝退能力很强,但是实际上并不是一本数学领域的书籍,其实也很难说它到底属于哪个领域,因为本书涉及的内容实在是有点多。既讲了很多信息学家的生平轶事,研究路途上的经历和一些人生哲学,又涉猎信息论、密码学、统计学、自然语言处理、搜索引擎等等许多领域的知识。可能也正因此,想必很难找出一个词来能够统领这一切,所以称为《数学之美》也不为过。


本书的切入点很简单,就是统计学在自然语言处理的应用。实际上就是我们之前在介绍朴素贝叶斯模型的时候用到的假设,假设每个单词只和前面的少数几个单词有关,并且明确了模型的目标就是使得整个句子或者是文本出现的概率尽量大。现在来看这两点当然不起眼,但是在当时算得上是划时代的非常新颖的做法了。正是由于引入了统计学的概念,所以自然语言处理方面得到了非常巨大的提升和进展。

之后,顺着这条线,书里引入了信息论当中关于信息熵的阐述和理念。之后,从信息论的角度来讲解中文分词算法、搜索引擎以及拼音输入法等算法,非常精彩,也非常深刻。而且在讲解具体技术的过程当中,还穿插很多名人的故事和背后的道理以及作者的一些评论。打个不一定确切的比方,如果把算法或者搜索领域比较是武侠小说当中的一个门派,那么这本书可以算得上是祖师爷写的入门心法了。


4


既然是入门心法,其实并不会涉及很多技术的具体细节,吴军老师在这本书里讲的正是他对这搜索对这个行业理解的一个精华浓缩。也就是说,这本书不是让我们学习某个技术的,而是让我们用来更好学习技术的。


我个人觉得这本书最好的阅读方式应该至少阅读三遍,第一遍在还没有入门的时候读,读完你可能什么算法和技术都没有学到,但是一定会对机器学习、搜索、统计、模型这些概念有一个最基本的认识。


能够知道,目前行业内的算法工程师究竟是干什么的,面临和解决的问题大概是哪些,之前最基础的解决方法是什么。如果你理解能力强一些,还能大概读到当你面临一个全新的问题的时候应该怎么做。如果你还能被勾起一些学习的兴趣,那就完美了。但是显然,纸上读来终觉浅,读完这一遍之后,你还是你,从技术上看,也许你什么都没学到,但你至少可以将它当做是入门指南,顺着书上的顺序一点一点地深入学习每一个技术细节。

第二遍是在你学习的过程当中,不论是什么模型或者是算法,都会经历一个从不明白到明白的过程。在这个过程当中最大的问题其实是很多时候我们并不知道我们理解到什么地步了,最常见的就是我们以为我们已经明白了,但其实还差一些,所以面试的时候才经常被秒杀。所以在学习的过程中,应该再读一遍本书,看看吴军老师是如何站在更高的视角上理解这个问题的。既可以杜绝骄傲自满,又可以起到指导前进的作用。


最后一遍是在我们学完书中所提到的所有技术细节之后,再回过来温故知新、查漏补缺。我觉得一定还会有新的收获。


如果你想要会踏入互联网,无论你做不做技术,我都建议你抽出一点时间来阅读本书。如果你真的可以按照我说的方法去读三遍本书的话,我觉得你一定会获得远超想象的回报。这本书的可读性很强,如果觉得有读不懂的地方,可以跳过,章节之间关联性并不强,跳过部分内容不会影响之后的阅读。


今天的内容就到这里,扫码关注我的公众号获取更多文章,你们的支持是我最大的动力。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!