数学之美
一,文字和语言 数字和信息
- 语言研究的两种方向:语料,语法
- 犹太人抄圣经的校验数
二 自然语言处理 从规则到统计
- 基于统计的句法分析
三 统计语言模型
- 一个句子是否合理,取决于其存在的可能性。
- 统计语言的二元模型
- 马尔可夫链
- 高阶语言模型
- 零概率问题:古德图灵估计公式
四 谈谈中文分词
- 查字典法
- 统计语言模型方法:分词后句子出现的概率最大。
- 动态规划 维特比译码
- 英文手写体的识别
- 分词的层次概念
五 隐含马尔可夫模型
- 训练算法(鲍姆-韦尔奇算法)
- 解码算法(维特比算法)
- 自然语言处理、机器学习
六 信息的度量和作用
- 信息熵
- 条件熵 相关搜索
- 互信息 熵与条件熵的差异。解决词义的二义性(亚让斯基)
- 相对熵 衡量两个正值函数的相似性,度量两个随机分布的差异性,比较两词是否同义,比较文章是否同类,TF-IDF
七 贾里尼克和现代语言处理
- bcjr算法
八 布尔代数和搜索引擎的索引
- 用一个很长的二进制表示一个关键字是否出现在每篇文献中。多个关键词就是求与。
九 图论和网络爬虫
- 广度优先和深度优先。
- 优先级队列
- 页面分析 URL提取,模拟脚本
- hash记录
十 pagerank
- 一个网页的排名=所有指向这个网页的其他网页的权重之和。
- 矩阵相乘,迭代。
- 稀疏矩阵。
十一 确定网页和查询的相关性
- tf-idf 词频/逆文本频率指数
- 关键词概率分布的交叉熵
十二 有限状态机和动态规划
- 地址识别
- 基于概率的有限状态机
- 离散的马尔可夫链
十三 阿米特辛格
- 简单有效
十四 余弦定理和新闻分类
- 新闻的特征向量 关键词的tfidf
- 新闻相似性度量 余弦定理 夹角
- 新闻的分类 聚类
十五 矩阵运算和文本处理分类问题
- 矩阵的奇异值分解 同时完成关键词分类和文章分类
- 奇异值分解的并行算法
十六 信息指纹及其应用
- 哈希存储
- 判定集合相同 和基本相同 垃圾邮件识别
- 网页比对
- 相似哈希
- 视频关键帧比对
十七 密码学的数学原理
- 均匀分布 统计独立
- 公开密钥 大素数
十八 搜索引擎反作弊问题
- 噪声清除 抗抗干扰
- 余弦定理判别网站的出链向量
- 图论识别互相链接的clique
十九 数学模型的重要性
- 形式简单
- 数据积累
- 不要乱打补丁修正
二十 最大熵模型
- 保留全部不确定性,风险降到最低
- 概率分布的信息熵最大
- 完美用于词性标注 句法分析
- 训练方法:通用迭代算法gis 改进迭代算法iis 吴军的改进
二十一 拼音输入法的数学原理
- 汉字的信息熵 上下文相关性
- 语言模型解决一音多字
- 拼音转汉字 隐性马尔可夫模型 有限状态机
教父马库斯
- ldc语料库
- 柯林斯的自然语言文法分析器
二十三 布隆过滤器
- 二进制向量加随机映射函数
- 快速 省空间
- 有误判概率
- 用于垃圾邮件识别
二十四 贝叶斯网络
- 马尔可夫链的扩展
- np完备问题
- 训练
- 主题词分类
- rephil
二十五 条件随机场和句法分析
- 拉纳帕提 括括号 句法分析
- 条件随机场 扩展的隐含马尔可夫模型 考虑上下文
- 利用边缘分布来训练模型
- 浅层句法分析
二十六 维特比算法
- 动态规划算法
- 最短路径问题
- 海蒂 拉玛尔 cdma
- 高通创始人
二十七 文本自动分类问题 期望最大化算法
- 应用聚类算法
- em算法 期望值计算 最大化过程
- 局部最优解
二十八 逻辑回归和搜索广告
- 推送最有可能点击的广告,而非出价最高
- 逻辑回归模型
- 一层神经网络
- 预估点击率
二十九 GOOGEL云计算
- MapReduce
来源:https://www.cnblogs.com/herzog/p/3397779.html