中文 IKAnalyzer 分词

package NaviveBayesClassify;

import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class ChineseSpliter {

/**

* 对给定的文本进行中文分词

* @param text

* 给定的文本

* @param splitToken

* 用于分割的标记,如"|"

* @return 分词完毕的文本

* @throws IOException

public static String split(String text, String splitToken) throws IOException {

String result = null;

// 创建分词对象

@SuppressWarnings("resource")

Analyzer analyzer = new IKAnalyzer(true);

StringReader reader = new StringReader(text);

// 分词

TokenStream ts = analyzer.tokenStream("", reader);

CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);

// 遍历分词数据

while (ts.incrementToken()) {

System.out.print(term.toString() + splitToken);

result = term.toString() + splitToken + result;

}

reader.close();

return result;

}

来源：oschina

链接：https://my.oschina.net/u/2510243/blog/637150

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!