中文分词

ElasticSearch(5)-Mapping

戏子无情 提交于 2019-12-18 10:08:21
一、Mapping概述 映射 为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确的字符串值,Elasticsearch需要知道每个字段里面都包含了什么类型。这些类型和字段的信息存储(包含)在映射(mapping)中。 正如《数据吞吐》一节所说,索引中每个文档都有一个类型(type)。 每个类型拥有自己的映射(mapping)或者模式定义(schema definition)。一个映射定义了字段类型,每个字段的数据类型,以及字段被Elasticsearch处理的方式。映射还用于设置关联到类型上的元数据。 这里只是入门。 例如,可以使用映射来定义: 字符串字段是否作为全文本搜索字段 哪些字段包含数字,日期或地理信息 文档中所有字段的值是否应该被索引到_all字段 日期值的格式 自定义规则来控制动态添加的字段的映射 映射类型与type :即一个索引中有多个type,从逻辑上对文档进行划分、每个索引有一个或多个映射类型,类型是对Document划分的逻辑组,索引中每个文档都有一个类型( type ),每个类型拥有自己的映射或者模式定义(schema definition) 。每个映射类型包括: 关联到类型上的元数据,比如:_index, _type, _id, and _source 字段或属性的定义,比如:字段类型,每个字段的数据类型

盘古分词--功能简介

两盒软妹~` 提交于 2019-12-16 23:00:37
盘古分词--功能简介 作者:eaglet 两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两周的开发(业余时间),今天终于完成了盘古分词的V1.0版本。盘古分词和KTDictSeg完全不同,几乎所有的算法我全部都推倒重写了,其分词速度大概比KTDictSeg快5倍左右(多线程下快10倍以上),内存占用只有KTDictSeg的一半,分词的准确度方面也比 KTDictSeg 有显著提高,功能也增加了很多。下面我就简单介绍一下盘古分词组件的基本功能,希望能对有这方面需求的朋友有所帮助。 盘古分词 英文名 PanGuSegment 项目 Logo: 项目首页 盘古分词项目首页 开源协议 : Apache License 2.0 商业应用:免费 商业应用授权 下载地址 同项目首页 功能 中文分词功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 详见 盘古分词版本功能介绍 - 多元分词

盘古分词

℡╲_俬逩灬. 提交于 2019-12-16 20:18:24
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 强制一元分词 输入 “张三说的确实在理” 分词结果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在 (6,1)/在理(6,5)/理(7,1)/ 繁体中文分词 输入"我的選擇" 分词结果: 我/的/選擇/ 同时输出简体和繁体 输入"我的選擇" 分词结果:我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/ 中文词性输出 盘古分词可以将以登录词的中文词性输出给用户,以方便用户做进一步处理。 全角字符支持 盘古分词可以识别全角的字母和数字 英文分词 英文分词 英文单词通常都是靠空格等符号分割,这个比较简单,盘古分词分英文自然也没有什么问题。 英文专用词识别 一些英文简写是字母符号混合,或者是字母数字混合,这个分词起来就不能按照空格符号这样分割了,对于字母符号混合的如 U.S.A

文本字符串的分词化处理

岁酱吖の 提交于 2019-12-15 20:05:59
板块:Python 内容: # -*- coding: utf-8 -*- """ Created on Sun Sep 22 10:24:16 2019 在智能钻完井中,我们经常要处理文本字符串,这类字符串的数据处理和数值数据有很大的区别。下面的代码,可以实现对任意的一段中文字符串进行列表处理,代码很短,但是很实用。 txt -> List-> str。 @author: nepu Liw """ import re filename='任意一个报告0105.txt' print('*'*50) def loadDatadet(infile): 'infile文件名,col为列数' f=open(infile,'r') sourceInLine=f.readlines() dataset=[] for line in sourceInLine: temp1=line.strip('\n') temp2=temp1.split('\t') dataset.append(temp2) return dataset infile=loadDatadet(filename) print('txt -> List-> str') print('FileContent=',infile) print('teyp:',type(infile),'\n','len:',len(infile))

Python中文分词之Jieba

时间秒杀一切 提交于 2019-12-13 07:56:38
1、分词方法 jieba.cut() # 返回对象 generator,可迭代 jieba.cut_for_search() # 返回对象 generator,可迭代 jieba.lcut() # 返回 list jieba.lcut_for_search() # 返回 list '/'.join() # 将 cut() 结果用指定符号拼接 2、方法调用(一) jieba.cut(s, cut_all, HMM) 和 jieba.lcut(s, cut_all, HMM) ,接受三个参数 s:要分词的字符串(unicode、UTF-8、GBK) cut_all:是否使用全模式,默认False HMM:是否使用HMM模型(隐马可夫模型,新词识别),默认True 示例1(cut_all): example1 = jieba.cut('下午去西安交大打球') # 下午/去/西安交大/打球 (generator) example2 = jieba.cut('下午去西安交大打球', cut_all=True) # 下午/去/西安/西安交大/交大/打球 example3 = jieba.lcut('下午去西安交大打球') # ['下午', '去', '西安交大', '打球'](list) 示例2(HMM): example1 = jieba.cut('下午去西大打球', HMM=True) #

python词云图与中文分词

谁都会走 提交于 2019-12-12 22:39:24
2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数,用于精准模式,即将字符串分割为等量的中文词组,返回结果是列表类型print(jieba.lcut(a))#jieba.lcut(s,cut_all=True):用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性较大,速度很快,但是不能解决歧义的问题print(jieba.lcut(a,cut_all=True))#jieba.lcut_for_search函数主要是返回搜索引擎模式,该模式首先精准执行精确模式,然后再对其中的长词进行进一步的切片获得最终结果print(jieba.lcut_for_search(a))#jieba.add_word()函数主要用来增加jieba库中的内容新的单词jieba.add_word("燕江依")#词云图的绘制import wordcloudimport jieba#英文的词云图生成比较简单,直接可以使用Wordcloud。generate()函数来进行,因为它是按照空格或者标点符号来进行划分t="i like Python,i am studying python"wd=wordcloud.WordCloud()

jieba 中文分词介绍及使用

拜拜、爱过 提交于 2019-12-12 14:27:57
目录 基本介绍 功能及使用 1. 分词 2. 添加自定义词典 2.1 载入词典 2.2 调整词典 3. 关键词提取 3.1 基于 TF-IDF 算法的关键词抽取 3.2 基于 TextRank 算法的关键词抽取 4. 词性标注 5. 并行分词 6. kenize:返回词语在原文的起止位置 基本介绍 支持 3 种分词模式 1)精确模式:将句子最精确的分开,适合文本分析; 2)全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义; 3)搜索引擎模式:在精确的基础上,对长词再次切分,提高召回; ​​​​ 支持繁体分词 支持自定义词典 功能及使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型; ​​ jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细; ​​​​​待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意: 不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8; jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个 可迭代的 generator ,可以使用 for

aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

谁都会走 提交于 2019-12-12 10:16:47
文章大纲 Elastic search & kibana & 分词器 安装 版本控制 下载地址 Elastic search安装 kibana 安装 分词器配置 作者:season Elastic search & kibana & 分词器 安装 版本控制 ES版本:7.2.0 分词器版本: kibana 版本:7.2.0 下载地址 ES 下载地址: https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-2-0 kibana 下载地址: https://www.elastic.co/cn/downloads/past-releases/kibana-7-2-0 hanlp 分词器下载地址: https://github.com/KennFalcon/elasticsearch-analysis-hanlp Elastic search安装 0.添加es 用户,并新建目录 不能以root 方式运行elasticSearch groupadd elasticsearch useradd elasticsearch -g elasticsearch chown -R elasticsearch:elasticsearch /home/elasticsearch 1.修改 配置文件 elasticsearch

Elasticsearch安装IK中文分词插件

时间秒杀一切 提交于 2019-12-10 10:17:46
一,从github上下载最新的Ik分词源码到本地 git clone https://github.com/medcl/elasticsearch-analysis-ik clone到本地后,将elasticsearch-analysis-ik目录中的 config/ik/ 整个目录拷贝到Elasticsearch安装目录的config目录下。 二,将elasticsearch-analysis-ik目录下的config中的elasticsearch.yml文件覆盖Elasticsearch安装目录下的config目录中的elasticsearch.yml文件。 三,进入到刚clone的 elasticsearch-analysis-ik目录中,执行maven命令打包: mvn clean package 如果没有安装maven工具的话,需要先安装一下maven工具,具体的安装参考 官网的具体安装步骤。 执行上述命令之后,IK的分词包已经准备好了,下面就开始安装了。 四, 运行Elasticsearch安装路径下的bin目录中的plugin命令安装刚刚编译好的分词包: plugin —install analysis-ik —url file:///#{project_path}/elasticsearch-analysis-ik/target/releases

ElasticSearch安装ik分词插件

[亡魂溺海] 提交于 2019-12-10 10:14:21
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyzer 2012特性: 1.采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式; 2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。 3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。 4.采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 5.优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。 二、安装IK分词插件 假设读者已经安装好ES,如果没有的话,请参考