chinesewordsegmentation

史上最全中文分词工具整理

喜欢而已 提交于 2021-01-12 01:49:05
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

史上最全中文分词工具整理

泄露秘密 提交于 2021-01-12 01:48:54
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和 THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

fastHan: 基于BERT的中文NLP集成工具

心不动则不痛 提交于 2020-08-07 07:32:29
简介 fastHan是基于 fastNLP 与pytorch实现的中文自然语言处理工具,像spacy一样调用方便。 其内核为基于BERT的联合模型,其在13个语料库中进行训练,可处理 中文分词、词性标注、依存句法分析、命名实体识别 四项任务。fastHan共有base与large两个版本,分别利用BERT的前四层与前八层。base版本在总参数量150MB的情况下各项任务均有不错表现,large版本则接近甚至超越SOTA模型。 项目地址为: https:// github.com/fastnlp/fast Han 安装 fastHan的安装非常简便。它存在如下包的依赖: fastNLP>=0.5.0 pytorch>=1.0.0 执行指令 pip install fastHan 即可安装。 使用 fastHan的使用非常简单,只需要两步,加载模型、输入句子。 加载模型 :执行以下代码即可加载模型: 用户首次初始化模型时模块将自动从服务器下载参数。模型默认初始化base版本,可修改model_type参数值为’large’加载large版本。 输入句子 :输入模型的可以是单独的字符串,也可是由字符串组成的列表。如果输入的是列表,模型将一次性处理所有输入的字符串,所以请自行控制 batch size。模型对句子进行依存分析、命名实体识别的简单例子如下: 其中,target参数可在