中文 IKAnalyzer 分词

喜你入骨 提交于 2019-12-03 10:53:35

package NaviveBayesClassify;


import java.io.IOException;

import java.io.StringReader;


import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;


public class ChineseSpliter {


/**

* 对给定的文本进行中文分词

* @param text

*            给定的文本

* @param splitToken

*            用于分割的标记,如"|"

* @return 分词完毕的文本

* @throws IOException

*/

public static String split(String text, String splitToken) throws IOException {


String result = null;

// 创建分词对象

@SuppressWarnings("resource")

Analyzer analyzer = new IKAnalyzer(true);


StringReader reader = new StringReader(text);

// 分词

TokenStream ts = analyzer.tokenStream("", reader);

CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);

// 遍历分词数据

while (ts.incrementToken()) {

System.out.print(term.toString() + splitToken);

result = term.toString() + splitToken + result;

}

reader.close();

return result; 

}

}


易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!