ictclas

史上最全中文分词工具整理

喜欢而已 提交于 2021-01-12 01:49:05
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

史上最全中文分词工具整理

泄露秘密 提交于 2021-01-12 01:48:54
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和 THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

纯分享:信息流投放的9类超实用工具 快收藏起来!

浪尽此生 提交于 2020-04-12 15:26:45
今天,我为大家整理了在平时推广中会用到的9大类不同功能的工具,覆盖第三方监测工具、信息流广告追踪、APP推广工具、搜索指数工具……话不多说,一起来看看你用过几个? ====================================================== 第三方监测工具 1、shareinstall 官网: http://www.shareinstall.com 特性:免费/付费,数据统计类产品比较成熟全面 ShareinstallSDK其实是一款APP的推广辅助工具。APP开发者可以通过ShareinstallSDK更精准的进行产品的推广。在用户安装过程中简化用户安装流程,改善用户安装使用体验。另外,ShareinstallSDK还是一款渠道统计工具,能够全方位的分析渠道推广效果。 2、百度统计 官网: https://tongji.baidu.com 特性:免费,技术相对成熟,与百度SEM/信息流推广完美结合 这个是我们在推广中运用的最多的统计工具之一,尤其是SEM。 3、GoogleAnalytics(GA) 官网: http://www.google.cn/analytics/ 特性:内什么,全球最大的统计分析工具之一,目前国内用的比较少了,想学习的同学,是需要×××的。 买一些软件即可,例如多态,或者plex等等(多态的会有流量限制,plex的没有