机器学习作业---支持向量机SVM(二)垃圾邮件分类
------------------邮件数据预处理------------------ 一:邮件数据读取 with open( ' emailSample1.txt ' , ' r ' ) as fp: content = fp.read() #一次读取了全部数据 print(content) 二:预处理操作 (一)预处理内容 预处理主要包括以下9个部分: 1. 将大小写统一成小写字母; 2. 移除所有HTML标签,只保留内容。 3. 将所有的网址替换为字符串 “httpaddr”. 4. 将所有的邮箱地址替换为 “emailaddr” 5. 将所有dollar符号($)替换为“dollar”. 6. 将所有数字替换为“number” 7. 将所有单词还原为词源,词干提取 8. 移除所有非文字类型 9. 去除空字符串‘’ (二)预处理实现读取邮件 import re import nltk.stem as ns def preprocessing(email): # 1 . 将大小写统一成小写字母; email = email.lower() # 2 . 移除所有HTML标签,只保留内容 email = re.sub( " <[^<>]> " , " " ,email) #找到<>标签进行替换,注意:我们匹配的<>标签中内部不能含有<>---<<>>--- 最小匹配