HanLP

汉语言处理工具pyhanlp的简繁转换

删除回忆录丶 提交于 2019-11-29 18:38:57
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 说明 : ·HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。 算法详解 : ·《汉字转拼音与简繁转换的Java实现》——请查阅此文 from pyhanlp import * # 繁简转化 print(HanLP.convertToTraditionalChinese("“以后等你当上皇后,就能买草莓庆祝了”。发现一根白头发")) print(HanLP.convertToSimplifiedChinese("憑藉筆記簿型電腦寫程式HanLP")) # 简体转台湾繁体 print(HanLP.s2tw("hankcs在台湾写代码")) # 台湾繁体转简体 print(HanLP.tw2s("hankcs在臺灣寫程式碼")) # 简体转香港繁体 print(HanLP.s2hk("hankcs在香港写代码")) # 香港繁体转简体 print(HanLP.hk2s("hankcs在香港寫代碼")) # 香港繁体转台湾繁体 print(HanLP.hk2tw("hankcs在臺灣寫代碼")) # 台湾繁体转香港繁体 print

HanLP Android 示例

我们两清 提交于 2019-11-29 18:38:42
portable版 portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖: dependencies { compile 'com.hankcs:hanlp:portable-1.6.8' } 自定义版 HanLP的全部功能(分词、简繁、拼音、文本分类、句法分析)都兼容安卓,具体配置方法如下: 1、下载hanlp.jar放入app/libs。 2、下载data.zip解压到app/src/main/assets ,按需删除不需要的文件以减小apk体积。 3、在程序启动时(通常是MainApplication或MainActivity的onCreate方法)执行初始化代码: private void initHanLP() { try { Os.setenv("HANLP_ROOT", "", true); } catch (ErrnoException e) { throw new RuntimeException(e); } final AssetManager assetManager = getAssets(); HanLP.Config.IOAdapter = new IIOAdapter() { @Override public InputStream open(String path) throws

汉语言处理工具pyhanlp的拼音转换与字符正则化

随声附和 提交于 2019-11-29 18:38:26
汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明 : HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 HanLP能够识别多音字,也能给繁体中文注拼音。 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度! 算法详解 : 《汉字转拼音与简繁转换的Java实现》 # 汉字转拼音 Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin") text = "重载不是重任!" pinyin_list = HanLP.convertToPinyinList(text) print("原文,", end=" ") print(text) print("拼音(数字音调),", end=" ") print(pinyin_list) print("拼音(符号音调),", end=" ") for pinyin in pinyin_list: print("%s," % pinyin.getPinyinWithToneMark(), end=" ") print("\n拼音(无音调),", end=" ") for pinyin in pinyin_list: print("%s," % pinyin

pyhanlp 繁简转换之拼音转换与字符正则化

怎甘沉沦 提交于 2019-11-29 18:38:14
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 · 说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。 · 算法详解 · 《汉字转拼音与简繁转换的Java实现》 汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 · 说明 · HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 · HanLP能够识别多音字,也能给繁体中文注拼音。 · 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度! · 算法详解 · 《汉字转拼音与简繁转换的Java实现》 拼音转中文 HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能,我们可以使用AhoCorasickDoubleArrayTrie实现的最长分词器,需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie 字符正则化 演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。 该配置项位于hanlp.properties中

Spring Boot中对自然语言处理工具包hanlp的调用详解

余生颓废 提交于 2019-11-29 02:11:03
概 述 HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来! 下载 HanLP数据和程序 由于 HanLP库将数据与代码分离,因此我们需要分别下载所需数据和 jar包: (1)所需 data数据包下载地址为 data.zip (2)所需 jar包下载地址为 hanlp-release.zip 工程搭建 (1)创建一个普通的 Spring Boot工程,不赘述 (2)引入 HanLP数据 和 配置 下载完成以后,首先解压 hanlp-release.zip压缩包,然后将解压出的 HanLP的 jar包引入 Spring Boot工程,然后需要来放置 HanLP所需配置和数据: (1)将解压后 hanlp-release.zip压缩包中的 hanlp.properties配置文件置于项目的 resources资源目录下 (2)然后解压 data.zip压缩包,将解压出的 data目录同样至于 resources目录下( data 中的数据包很重要,是 HanLP工作所需的词典和模型 ) 创建 IO适配器 HanLP 提供了IO适配器,用户可以实现其提供的 com.hankcs

HanLP的自定义词典使用方式与注意事项介绍

最后都变了- 提交于 2019-11-29 02:10:50
【环境】python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp # 安 装pyhanlp 进入python安装包路径,如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.properties.in改名为备份文件。 mv hanlp.properties.in hanlp.properties.in.bak 修改hanlp.properties vim hanlp.properties 将CustomDictionaryPath修改为你自定义的词典路径,如: CustomDictionaryPath=data/dictionary/custom/self_define_dict.txt; 现代汉语补充词库.txt; 全国地名大全.txt; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns; data/dictionary/person/nrf.txt nrf; 保存。 python脚本,调用pyhanlp示例: from pyhanlp import * print HanLP.segment( "在你想要放弃的时候,想想是什么让你当初坚持走到了这里。总是有人要赢的,那为什么不能是我" ) 运行脚本后,系统会检查配置文件hanlp

Hanlp汉字转拼音使用python调用详解

纵饮孤独 提交于 2019-11-29 02:10:38
1、 hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 开源网址:HanLP: Han Language Processing 但由于hanlp是用java来实现的,要在python中使用hanlp,只能通过调用pyhanlp这个包来。 但是pyhanlp里面有一些功能仍然不支持python直接调用,比如汉字转拼音,这时候就需要从python中启动jvm并指定Hanlp的jar路径来使用其他功能了。 2 、下载并配置文件 (1)从开源网址中下载jar、data、hanlp.properties并修改配置文件: 1、下载:data.zip 下载后解压到任意目录,接下来通过配置文件hanlp.properties告诉HanLP数据包的位置。 data │ ├─dictionary └─model 用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。 3 、下载jar和配置文件:hanlp-release.zip (1)配置文件hanlp.properties的作用是告诉HanLP数据包的位置,只需修改第一行为data的父目录即可: root=D:/JavaProjects/HanLP/ 比如data目录是

python调用hanlp分词包手记

心不动则不痛 提交于 2019-11-29 02:08:58
python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用hanlp分词包的过程文章,供需要的朋友参考学习交流!以下为文章内容: 1.在python下安装pyhanlp sudo pip install pyhanlp (详见pyhanlp官方文档) 2.pyhanlp的一些使用方法 (1)Hanlp.segment的使用 from pyhanlp import * print HanLP.segment("今天开心了吗?") #输出:[今天/t, 开心/a, 了/ule, 吗/y, ?/w] 其它API函数的使用。 (pyhanlp里已经含有以下这些功能了,可以直接调用) 1 - # API列表 2CustomDictionary= LazyLoadingJClass( 'com.hankcs.hanlp.dictionary.CustomDictionary' ) 3 HanLP = SafeJClass( 'com.hankcs.hanlp.HanLP' ) 4 HanLP.Config = JClass( 'com.hankcs.hanlp.HanLP$Config' )

pyhanlp用户自定义词典添加实例说明

风流意气都作罢 提交于 2019-11-29 02:08:44
pyhanlp用户自定义词典添加 实例说明 pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用 . 如何向pyhanlp添加自定义的词典?以python 2.7.9为例: 1.安装pyhanlp:pip install pyhanlp 2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。 具体绝对路径可用hanlp --version获取: #hanlp --version jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data config:

hanlp自然语言处理包的基本使用--python

爱⌒轻易说出口 提交于 2019-11-29 02:08:34
hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。 这里主要介绍一下hanlp的中文分词、命名实体识别、依存句法分析,这里就不介绍具体的hanlp的安装了,百度教程很多,可以看这里: http://hanlp.com/ 里面也有相关的一些介绍。 我以前还使用过jieba分词和LTP,综合来说,LTP是做的相对要好一点,特别是中文处理这一块,但是它的最大缺点是不开源,而hanlp功能更齐全而且开源,更加有利于大家的项目开发的使用。 首先使用hanlp对中文进行处理的前提是大家已经安装好了hanlp: 第一将 这几个放在你的项目下 , 然后点击hanlp.propertiess,更改 保证你的data数据在这个目录之下 下面贴上一些处理自然语言的基本方法( 以下代码并非原创,来自于百度上的大神 ): #-*- coding:utf-8 -*- from jpype import * startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\python_projects\zhengzebiaodashi\hanlp\hanlp-1.3.4.jar;D:\python_projects\zhengzebiaodashi\hanlp", "-Xms1g", "-Xmx1g") # 启动JVM