配置Hanlp自然语言处理进阶
中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。 下载jar、property和data文件 下载jar文件,(下载hanlp压缩包)解压之后获得jar和property文件如下: 其中property问配置文件,jar文件为外部引用文件。 然后下载data文件: 【https://】pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉) 解压压缩包之后就能获取data目录了。 一切就绪之后下面就是配置了。 配置hanlp 新建一个空项目,包括一个新建的java文件的test.java, 1.package com; 2.import com.hankcs.hanlp.HanLP; 3.public class Test { 4.public static void main(String[] args) { 5. System.out.println(HanLP.segment("你好,欢迎使用HanLP!")); 6. } 7.} 目录结构如下图: