LTP

史上最全中文分词工具整理

喜欢而已 提交于 2021-01-12 01:49:05
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

史上最全中文分词工具整理

泄露秘密 提交于 2021-01-12 01:48:54
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和 THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

自然语言处理基础系列:自然语言处理概念与名词解释(1)

一世执手 提交于 2021-01-10 07:22:55
(一)语言分析的必要性: 假如你的公司发布了一款全新的手机产品。 新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解 大家关注的是这款手机的哪些特性 大家对这款手机的评价如何 有哪些用户表达了购买的意愿 在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。 让机器代替人来完成这些分析工作正是语言分析要做的工作。 (二)语言分析常用操作: (1)分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。 例如,句子 国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。 如果分词系统给出的切分结果是 国务院/ 总理/ 李克/ 强调/ 研/ 上海 … 因为强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。 切分歧义是分词任务中的主要难题。 (2)词性标注 词性标注(Part-of-speech Tagging, POS

ltp-ddt eth_switch_config学习

眉间皱痕 提交于 2020-12-29 06:52:14
# @name ALE Table test using SWITCH-CONFIG # @desc Checks default entries in ALE table and verifies addition and deletion of multicast entries. # @requires net ETHSWITCH_XS_FUNC_DUMP_UNICAST source 'common.sh'; dual_mac=`find /proc/device-tree/ -name dual_emac`; if [[ ! -z "$dual_mac" ]]; then die "This is a dual mac case, use a different dtb to test switch mode"; fi; iface=`get_eth_iface_name.sh` || die "error getting eth interface name"; mac_address=`cat /sys/class/net/$iface/address`; if [ -z "`switch-config -d|grep -i ucast| grep $mac_address`" ]; then die "TEST has failed since there is

ltp执行过程总结

老子叫甜甜 提交于 2020-12-29 03:35:16
命令行:./runltp -b DEVICE -f timers -p -l result-log-timers.20180824 -o screen-log-timers.20180824 runltp脚本大致流程(shell): LTP_SCRIPT="$(basename $0)" if [ "$LTP_SCRIPT" = "runltp" ]; then trap "cleanup" 0 setup main "$@" fi setup过后执行main函数 setup:宏设置,检查ltp是否正确安装,ltp-pan是否正确安装 main: 取得命令行参数,根据相应参数设置宏变量 设置log fail conf记录文件 根据命令行参数(宏变量)建立runtest文件 调用ltp-pan驱动相应testcase,传入相应参数 ltp-pan(C代码): 从main函数开始执行 ltp-pan原理以及流程.doc 130.5 KB 比如调用quotactl01 quotactl01.c中没有main函数 quotactl01.c第56行 #include "tst_test.h" tst_test.h 的 216 行 int main(int argc, char *argv[]) { tst_run_tcases(argc, argv, &test); } 是最先执行的。

LTP--linux稳定性测试 linux性能测试 ltp压力测试 ltp-pan

只愿长相守 提交于 2020-12-29 02:32:27
LTP--linux稳定性测试 linux性能测试 ltp压力测试 zhangzj1030 关注 14 人评论 33710人阅读 2011-12-09 12:07:45 说明:在写这篇文章之前,本人也不曾了解LTP是干嘛的,直到参加一次技术沙龙才了解到它是用来对linux系统进行稳定性测试的一个开源工具,演讲人是世纪佳缘运维部门的技术老总!平时我们这些做运维朋友们都很少涉及到系统的测试,因为觉得linux本生就很稳定,因此就没有必要去做测试,但是系统是更新的,同样linux的内核是也在更新的,那新系统是否就适合我们的业务,是否就比就系统稳定可靠呢!!我想大部分人凭直觉认为新系统就比老系统好吧!特别是对那些业务量大,访问量较高的大型网站来说,稳定的系统是多么的重要!!! @@@@-本人在网上也找了好久LTP的介绍,大都是雷同的,而且不知道COPY了多少遍,且时间已久,要想找到完整且好的非常的困难,从这点也可以看出,几乎很少有人做稳定性测试这方面的工作了!! 本人关于LTP的一些说明大都还是来自于网上,我想这个应该都是一样的! ============================ =LTP介绍开始 =================================== LTP--Linux Test Project 简介: LTP套件是由 Linux Test Project

#新闻拍一拍# 适用于 Linux 的微软反病毒软件 Microsoft Defender ATP 正式上线

北战南征 提交于 2020-10-24 22:57:40
适用于 Linux 的微软反病毒软件 Microsoft Defender ATP 正式上线 微软今天宣布了适用于 Android 的 Microsoft Defender ATP 首个预览版,同时还宣布适用于 Linux 的 Microsoft Defender ATP 正式上线。微软还承诺,将在未来几个月内为它带来多项新功能。 来源: cnBeta.COM 拍一拍:不知道 ATP 能防范多少“Linux 病毒”? Red Hat 报告了一个可导致拒绝服务的安全问题 根据描述,Red Hat 内核在“关联数据的身份验证加密uthenticated Encryption with Associated Data”(AEAD)中存在缺陷,这是一种加密技术。该问题在 17 个月前也就是 19 年 1 月的 Linux LTS 内核上游中已经修复过了,此次发现这一特定下游问题,应当是 LTP 测试未通过导致的。因此,邮件中提醒:“大多数 Linux 内核已经修复了这一错误,而没有在 LTP 中添加回归测试,这意味着挑选特定内核补丁来修复 LTP 问题不如合并所有 LTS 内核修复程序来得稳妥。” 来源: 开源中国 拍一拍:内核发行版的碎片化问题也需要重视起来。 欧盟承认 GDPR 实施有难度 欧盟的一份官方报告透露,生效已有两年的数据保护法规 GDPR 正被证明难以实施

pyltp实现NER以及实体统计

∥☆過路亽.° 提交于 2020-08-15 07:09:56
pyltp实现NER以及实体统计 人工智能火热,NLP技术也蓬勃发展,今天主要讲述NLP中的一项基础任务NER的实现。 首先介绍一下NER(命名实体识别,Named-entity recognition)是NLP的一项子任务,旨在实现从文本中抽取实体,实体一般包括:人名,地名,机构名,数量表达式,时间表达式等。在特定的领域,实体也会有所差异,比如:生物医学,研究实体就可以是药名,病名。 目标:实现基础的NER需要得到实体种类下的实体。 借助工具:哈工大LTP 哈工大LTP 怎么去使用LTP? python3.6+pyltp+ltp_data_v3.4.0 (1)pyltp的使用 a.配置好相应的python环境 b.安装pytlp(命令行:pip install pyltp),安装超时可以镜像下载或者下载好wheel文件本地安装 c.下载模型文件,我使用的版本为ltp_data_v3.4.0,下载地址: 模型下载地址 (2)实现NER 准备工作做好后,我们就可以选取测试文本,实现NER,代码如下: #write by heheyang # -*- coding: utf-8 -*- import os from pyltp import * LTP_DATA = 'ltpdata path' #LTPdata的根目录 # 分词 def wordscut ( text ) :

LTP 4.0!单模型完成6项自然语言处理任务

给你一囗甜甜゛ 提交于 2020-08-11 12:40:22
语言技术平台 (Language Technology Platform, LTP )是 哈工大社会计算与信息检索研究中心 (HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术于一体。其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了 第1名 。此外,平台还荣获了2010年中国中文信息学会科学技术 一等奖 、2016年黑龙江省科技进步 一等奖 。国内外众多研究单位和知名企业通过签署协议以及收费授权的方式使用该平台。 哈工大SCIR本科生 冯云龙 等同学在 车万翔 教授指导下,于近日对LTP进行了新一轮的全面升级,并推出了 LTP 4.0 版本。此次升级的主要改进为: 基于多任务学习框架进行统一学习,使得全部六项任务可以共享语义信息,达到了知识迁移的效果。既有效提升了系统的运行效率,又极大缩小了模型的占用空间 基于预训练模型进行统一的表示 ,有效提升了各项任务的准确率 基于教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确率 基于PyTorch框架开发,提供了原生的Python调用接口,通过pip包管理系统一键安装,极大提高了系统的易用性 下表列出了新旧版LTP在精度

物联网IOT解决方案WiFi路由通信模块选型 openwrt二次开发 串口透传

孤人 提交于 2020-08-05 17:03:24
在互联网,物联网,AI云计算,大数据等技术快速发展驱动下,中国家电产业发展的新时代已经到来,作为物联网产业重要的部分,智能家居逐渐成为行业中汹涌的浪潮。多样化的物联网消费产品,物联网工业智能控制化的产品也如雨后春笋出现在市场上。对于物联网产品研发初步的选型已经成为工程师们不得不面对的难题。是否选择对平台,直接关系到整体项目是否成功,最终产品研发的成本,时间与工作量。 物联网即“万物相连的互联网”,是一个基于互联网、传统电信网等的信息承载体。物联网智能家居的传输技术有GPRS,NB-IOT,Sigfox,LORA,WiFi,蓝牙,UWB,MTC,ZigBee,NFCD等多种传输方式,现在我们来聊的是一款物联网智能家居WiFi通讯路由模块——BOJINGnetMT7688AN模块。 MT7688AN芯片支持两种运作模式:IoT gateway 模式与 IoT device 模式.在 IoTgateway 模式中,可透过 PCIe 界面连接至802.11ac 芯片组,并作为双频 802.11ac 同步闸道。高速的 USB 2.0 接口可让 MT7688 连接至额外的 3G/LTE modem 硬件,或连接到 H.264 ISP 作为无线 IP 相机的应用。 IoT gateway 模式也支持触摸板、Bluetooth Low Energy、Zigbee/Z-Wave 和 Sub-1