数学之美

数学之美笔记(六)

淺唱寂寞╮ 提交于 2020-12-13 10:54:47
欧拉七桥问题是图论的开始。 如果一个图能够从一个顶点出发,每条边不重复的遍历一遍回到这个定点,那么顶点度必须为偶数。 广度优先搜素(Breadth-First Search):尽可能“广”的访问每个节点直接连接的其他节点。 深度优先搜索(Depth-First Search):一条路走到黑。 网络爬虫(Web Crawlers)是通过超链接,从任意一个网页出发,用图的遍历算法,自动的访问到每一个网页并把它们存起来的程序。 第一个网络爬虫——网络漫游者是由麻省理工学院的马休 · 格雷写成。 如何构建一个网络爬虫? 用BFS还是DFS?网页爬虫对网页遍历从次序有一个相对复杂的下载优先级排序的子系统即调度系统。当然在调度系统里要存储那些已经发现但是尚未下载的网页的URL,他们一般存在一个优先级队列,而用这种方式遍历互联网,在工程上和BFS更相似。但也不是不用DFS,对于某个网站一般是由特定的一台或者几台服务器专门下载。这些服务器下载完一个网站,然后再进入下一个网站,而不是每个网站轮流下载5%,然后回过头来下载第二批。 页面的分析和URL的提取。 记录哪些网页已经下载过的小本本——URL表。 采用哈希表的好处是判断一个网页的URL是否在表中,平均只需要一次的查找。如果遇到没有下载的网页,除了下载该网页,还需要在下载完成后,将这个网页的URL存到哈希表中。 而多个服务器维护一张哈希表

书籍推荐——一本老书,吴军老师《数学之美》

梦想的初衷 提交于 2020-01-30 09:52:10
本文始发于个人公众号: TechFlow 1 这几天春节,因为疫情和拜年,所以文章停更了四天。但是这四天里我并没有偷懒,我利用间歇的时间读了一本久仰大名但是一直没有时间阅读的书。它就是吴军老师的著作——《 数学之美 》。 之前早在我还在上大学的时候,就听线性代数的老师给我们推荐过这本书。但是当时并没有什么印象,也没有读书的习惯,所以当年并没有读这本书。以我现在的眼光来看,当时如果读了,也未必能够读懂。后来一次偶然的机会,在“ 得到 ”APP当中听过吴军老师的一些讲座,给了我很多启发。 后来默默百度了吴军老师的简历,发现他曾经当过Google的高级资深研究员,并且还担任过腾讯副总裁,是一个不折不扣的业内神犇。因此,我这次是抱着朝圣的心态来阅读的。 读完之后,果然 不负期望,感受非常多 ,收获满满,因此今天特地单独开篇文章介绍本书。 首先,我先说对我感触最大的一点。其实并不是书中讲的数学或者是机器学习模型,也不是某个神人科学家的事迹, 而是吴军老师对待教育的观点 。 2 在自然语言处理领域,有一个非常牛的开创人,名叫 贾里尼克 。他是犹太人,生于二战之前,由于全家受到二战的影响举家移民到了美国。他们刚到了美国的时候非常贫困,以至于他不过十几岁大,还需要进工厂打工弥补家用。所以他 大部分时间不能花在学习上 ,和其他同学相比,他的课业落下了一大半。 不仅如此,在他成长的路上

《数学之美》-----读后感

邮差的信 提交于 2020-01-26 15:58:37
《数学之美》-----读后感 1.如何衡量分词效果的好坏? 2.如何构建网络爬虫? 3.影响搜索引擎的因素 4.余弦相似度在自然语言处理中的应用 5.如何判断两个集合是否相同? 6.密码 7.解决噪音干扰(反作弊)的基本思路 8.如何衡量搜索结果的权威性? 9.数学模型的重要性 10.拼音输入法 11.哈希表的存储效率一般不超过50%? 后记 参考链接 一直以来都不喜欢看书,比较偏爱数学,觉得只要知道思路不用记太多长篇大论的东西。本科学了四年的数学与应用数学,我从不怀疑数学的价值,但是天天面对复杂的定理和证明,一度时间让我很怀疑数学的实用性,毕竟很多人并不需要知道每一步是怎末推导的,只需要把对应的公式记住就完事了。 大三决心考研的时候,便当了逃兵,转到了统计,考研复试是我第一次感受到本科四年的数学知识在我身上的实际体现,复试笔试的题目好多都是本科只有数学专业才学的特别难的概率论和数理统计的课后习题,庆幸自己没有偷懒,所有的习题都自己做了一遍。随着接触的统计和自然语言处理的知识越来越多,我越来越感受到数学的实用性,那些复杂的推导和证明可以在实际中更快更清晰的解决更多问题。 在朋友和老师的推荐下,便读了吴军老师的数学之美,更是加深了我对数学的认知,真正感受到了从统计学到天文学,数学不仅无处不在,而且无法替代。本文主要整理数学之美里面一些比较实际的问题,作为自己读书后的总结。 1

《数学之美》读书笔记和知识点总结(一)

时光总嘲笑我的痴心妄想 提交于 2020-01-12 05:13:10
  早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括《数学之美》和《浪潮之巅》。看了之后大叫过瘾,让我好好享受了一回数学之美。 文字和数字的起源 很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。 文字:知道“ 罗塞塔 ”石碑的典故。 信息冗余的重要性:当石碑经历风吹日晒,一部分文字被腐蚀掉时,还有另一部分重复的文字作为备份,可以还原石碑的信息。类似的还有人体的DNA,在人体当中,有99%的DNA是无效的,正是这99%保证了人类的正常繁衍,当遇人类遇到辐射时,DNA发生变异的概率是1%. 数字:进制的产生 为了表达大数,不同的文明产生了不同的数字表示方法,最终只有使用10进制的文明生存了下来。 10进制:古中国、古印度、阿拉伯 12进制:印度、斯里兰卡 20进制:玛雅,玛雅文明失败的原因之一就是进制太复杂,不利于科学进步,咱们现在要背九九乘法表,他们背的是361路围棋棋盘。 单位进制:罗马(5、10、50、100、500、1000) 数字的表示方法(编解码原理) 中国:编解码的密钥是乘除 二百万 = 2 x 100 x 10000 罗马: 编解码的密钥是加减 IV = 5-1 = 4 ,

《数学之美》读书笔记

为君一笑 提交于 2020-01-11 02:18:24
数学之美 一,文字和语言 数字和信息 语言研究的两种方向:语料,语法 犹太人抄圣经的校验数 二 自然语言处理 从规则到统计 基于统计的句法分析 三 统计语言模型 一个句子是否合理,取决于其存在的可能性。 统计语言的二元模型 马尔可夫链 高阶语言模型 零概率问题:古德图灵估计公式 四 谈谈中文分词 查字典法 统计语言模型方法: 分词后句子出现的概率最大 。 动态规划 维特比译码 英文手写体的识别 分词的层次概念 五 隐含马尔可夫模型 训练算法(鲍姆-韦尔奇算法) 解码算法(维特比算法) 自然语言处理、机器学习 六 信息的度量和作用 信息熵 条件熵 相关搜索 互信息 熵与条件熵的差异。解决词义的二义性(亚让斯基) 相对熵 衡量两个正值函数的相似性,度量两个随机分布的差异性,比较两词是否同义,比较文章是否同类,TF-IDF 七 贾里尼克和现代语言处理 bcjr算法 八 布尔代数和搜索引擎的索引 用一个很长的二进制表示一个关键字是否出现在每篇文献中。多个关键词就是求与。 九 图论和网络爬虫 广度优先和深度优先。 优先级队列 页面分析 URL提取,模拟脚本 hash记录 十 pagerank 一个网页的排名=所有指向这个网页的其他网页的权重之和。 矩阵相乘,迭代。 稀疏矩阵。 十一 确定网页和查询的相关性 tf-idf 词频/逆文本频率指数 关键词概率分布的交叉熵 十二 有限状态机和动态规划

代码规范及《数学之美》读后感

匿名 (未验证) 提交于 2019-12-02 23:59:01
一、代码规范 编程遵循的代码规范链接: https://blog.csdn.net/qq_42550817/article/details/82227564 列几个重要的点: 2.不允许把多个短语句写在一行中, 即一行只写一条语句。 3.if、for、do、while、case、switch、default等语句自占一行, 且if、for、do、while等语句的执行语句部分无论多少都要加括号{}。 4.注意运算符的优先级,并用括号明确表达式的操作顺序,避免使用默认优先级。 ...... 二、《数学之美》读后感   初览数学之美前两章,便沉浸与此。从一开始看到标题与目录就感觉此书会非常晦涩难懂而打算硬着头皮读下去的,但出乎我意料的是,本书非但没有一丝枯燥乏味之感,反倒让我微笑,默叹,以为妙绝。   最让我有感触的是自然语言处理这一极为艰深的领域,竟被简单的数学统计模型所解决,因为时代的原因而被它难倒的人数不胜数,但在大规模的快速计算机出现以及数学统计模型的引入之后,突然就被迎刃而解,真有点振奋人心的意味。书中也举了一些简单的模型来向读者说明,其中就用到了简单的条件概率,简单易懂,也让人感慨如此复杂的问题用到的数学工具是如此的简洁,数学的美妙之处真是展现的淋漓尽致。   因而在面对看似异常艰难的问题时,我们是否可以发挥自己的数学头脑,将数学语言应用于解决实际问题呢?说不定也能一往无前

《数学之美》读书笔记

匿名 (未验证) 提交于 2019-12-02 23:49:02
看了吴军的《数学之美》,感触颇多。吴军先生能通过简单的故事和诙谐的语言,将晦涩难懂的数学原理解释清楚,让人再次感受到数学的博大精深。读了这本书之后,发现曾经只和成绩挂钩的数学原理还能这么玩,这么接地气。为此,摒弃应试的动机,下一步计划重学一遍概率论、线代、高数等数学,以提高自己。本文是个人读《数学之美》记录下阅读时的最直接的感受,希望后期能适时翻阅,思想上和知识层面上共同指导自己。 第二版前言 今天,除了初等数学(加减乘除),大家对数学,尤其是纯粹的数学用途产生了怀疑。很多大学所学的数学,可能一辈子都没有机会应用,几年后就差不多忘光了。原因: ----因为不懂得数学的应用就在我们生活中,没感受到数学之美,数学也就真的白学了。 要了解世界级学者他们的平凡和卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。 第1章 文字和语言VS数字和信息 文字只是信息的载体,而非信息本身。 罗塞塔3份文本的数据保存形式,为自然语言处理提供两点指导: 信息冗余是信息安全的保障 语言的数据,称为语料。尤其在翻译中,语料的对比,是从事机器翻译的基础。 古时候的文言文和白话文,其实就是类似于今天信道压缩与否的区别,比如书中 从规则到统计的过渡过程,是在很长的历史内完成的。 基于统计的方法的核心模型是 通信系统加隐含马尔可夫模型 。统计模型的思想,可充分发挥数据的优势,大大提高效果

《数学之美》--吴军

孤街醉人 提交于 2019-11-30 14:12:44
前段时间开始看吴军写的一本很经典的书--《数学之美》。 然后下面是我的读书小笔记(回忆一下,看自己看进去多少东西): 关于数学的重新认识: 从小学到大的数学,在我的认知里,数学就是计算,推理+证明。这本书从人类的起源来演绎了数学的由来。让我印象最深的一句就是: 数学:就是通过学习获取知识。 世界万物皆可量化,这就意味着全都脱离不了数学。 图论和网络爬虫 这里讲到 哥尼斯 堡的 七座桥 问题,可以简化成下面的图例: 命题:从从以上图中任意一个节点出发,要求必须经过每一个线段且不能有任意重复经过的地方,并且要求最终回到起点的位置。 证明其是否有可行的方案。 证明: pass 上面研究 哥尼斯 堡的 七座桥问题就是图论。 图论是离散数学的一个分支。 图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。 那么网络爬虫又跟图论有什么关系呢? 网络爬虫就是获取网络中的网页数据,这里我们讲的主要偏向通用爬虫,也就是搜索引擎的爬取模式。我们将网络上的每一个页面看成一个特定的点,网页的url看成点与点之间的连线。于是整个网络上的网页就形成成了图论中的网状结构图。那么爬虫从任意一个节点出发,无论使用BFS还是DFS都能将整个网络的资源获取到,当然不只是BFS和DFS这两种遍历方法那么简单。

《数学之美》PPT配套讲稿

瘦欲@ 提交于 2019-11-30 14:09:01
配套PPT下载地址为https://download.csdn.net/download/zichen7055/10371086 大家好 前几天听说了这一期的笃学讲坛内容是推荐一本书,我就瞬间想到了这本书,很适合工科生巩固数学基础,扩展数学知识。这本《数学之美》是一部通俗的自然语言识别史话,所谓自然语言识别就是指人和计算机之间能用自然语言进行有效沟通的研究,人和人之间是能用自然语言沟通的,但是转换成计算机能识别的语言存在一定困难,本书在介绍自然语言识别的演化过程中穿插了很多数学知识如马尔科夫链、矩阵计算等,这本书它能帮助你了解数学在工程中的应用。 这是这本书的封面,在成书前,它是作者发表在谷歌黑板报上的一系列文章,后来作者吴军博士几乎把所有文章又写的更通俗一点出版了实体书,作者在书的第一面写着“。。。”,表明这本书主要是一本数学科普书的。说到这位作者吴军博士,他是。。。,也是。。,他 这本书是一本数学科普书,适合1、2 、3 介绍完本书的用途后,下面我通过举例书中的一些具体案例来告诉大家这本书是怎样科普的, 首先前面说到了这本书是一部自然语言识别史,就是介绍了如何让计算机理解自然语言的一个过程,早起对。。。,比如应用层你这个软件是进行语言识别、。。、或者像现在一些电脑助手手机助手的这种自动问答的,那认知层就需要计算机理解自然语言,基础层就是一些句法分析和语义分析,但是传统语言学。。