如何在java中去除中文文本的停用词

1. 整体思路

第一步：先将中文文本进行分词，这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步：使用停用词表，去除分好的词中的停用词。

2. 中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载，可以去github上下载

·HanLP 的环境配置有两种方式：方式一、Maven；方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后，java使用HanLP进行中文分词文档如下：hanlp.linrunsoft.com/doc.html

3. 下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份，很容易就找到！

4. 去除停用词工具类

使用这个工具类的之前，请先完成中文文本分词环境配置，并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

图1

5. 工具类测试

5.1 测试代码

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光，疑是地上霜。举头望明月，低头思故乡。"));

} catch (IOException e) {

e.printStackTrace();

}

5.2 测试结果

来源：oschina

链接：https://my.oschina.net/u/3793864/blog/3044230

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!