4.文本规范化处理
4.文本规范化处理 下文中将定义一个规范化模块以处理文本文档规范化,并在后面建立分类器时使用这个处理模块。尽管有许多可用的技术,但是将坚持简化与直接原则,以便于更容易地一步步参照这里的实现。将在模块中实现和使用下面的规范化技术。 扩展缩写词。 通过词形还原实现文本处理规范化。 去除特殊字符与符号。 去停用词。 不在更多的关注拼写纠正及其他高级的技术,但如果你感兴趣,可以集成这些之前讲述过的内容。首先从载入一些依赖的模块开始。来实现缩写词扩展。 contraction.py 折叠源码 # -*- coding: utf-8 -*- """ Created on Mon Aug 01 01:11:02 2016 @author: DIP """ CONTRACTION_MAP = { "ain't" : "is not" , "aren't" : "are not" , "can't" : "cannot" , "can't've" : "cannot have" , "'cause" : "because" , "could've" : "could have" , "couldn't" : "could not" , "couldn't've" : "could not have" , "didn't" : "did not" , "doesn't" : "does not" ,