二、正则表达式、文本正则化、编辑距离
目录 二、正则表达式、文本正则化、编辑距离 2.1 Regular Expressions 2.1.1 基本的正则表达式模式 2.1.2 Disjunction(析取)、Grouping、以及优先级顺序 2.1.5 更多操作符(小结) 2.1.6 正则表达式替换、捕获组 2.2 Words 2.3 语料 2.4 文本正则化 2.4.1 利用 Unix 工具粗糙的分词和正则化 2.4.3 中文分词:最大匹配算法 2.4.4 词形还原以及词干提取 2.4.5 Byte-Pair Encoding(BPE) 2.5 最小编辑距离 最小编辑距离算法 参考: 二、正则表达式、文本正则化、编辑距离 文本正则化的目的是将文本转换成一种更方便使用、更标准的表达形式。正则表达是一个其中的一个强有力的工具。对于大部分语言的处理,通常第一步需要做分词,这一类任务叫做 Tokenization 。另一个很重要的步骤是 Lemmatization(词形还原,例如英文中 is, are, am 都是 be,对于中文这一步,主要是简繁转换等,主要用于处理词法复杂的语言) 。 Stemming(词干提取,通常是是分离后缀) 。文本正则化通常也包含 句子分割 ,例如以句号或者感叹号分割。 编辑距离 是基于编辑的次数(增删改)比较给定两个字符串之间的相似度。 2.1 Regular Expressions 类似于