分词

Note of Jieba ( 词云图实例 )

ⅰ亾dé卋堺 提交于 2020-03-30 09:13:45
Note of Jieba jieba库是python 一个重要的第三方中文分词函数库,但需要用户自行安装。 一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。 搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词。 二、安装库函数 (1) 在命令行下输入指令: pip install jieba(2) 安装进程: 三、调用库函数 (1) 导入库函数:import <库名> 使用库中函数:<库名> . <函数名> (<函数参数>) (2) 导入库函数:from <库名> import * ( *为通配符 ) 使用库中函数:<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能 模式 函数 说明 精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)

Lucene.net常用功能说明

自古美人都是妖i 提交于 2020-03-25 12:03:27
Lucene.net是一个.net下的全文检索类库。配置简单,功能丰富,比较成熟。我在项目中用Lucene.net有一段时间了,这里我把常用一些功能写出来,与大家一起分享。 Lucene.net用的是3.0版本,分词采用盘古分词。示例程序用VS2010进行编译。 1 索引 在做索引时,有些参数是需要配置的,下面介绍下常用的参数配置。 1) 数据类型,如整形、时间、字符。 每种类型生成的索引方式都是不同的。比如:字符串需要分词,整形数据则不需要。生成索引的方式会影响到检索,如果整形按照字符串的方式生成索引,则比较不容易实现区域检索:如,ID>1000 and ID<2000。 时间索引比较特殊一些。Lucene.net无法对时间字段进行排序和区域检索,所以,要把时间字段转成长整形来实现。时间索引参考如下代码: var time = DateTime.Now; var timeField = new NumericField("Publish", Field.Store.YES, true).SetLongValue(time.Ticks); 2) 是否存储元数据。 如果进行存储,Lucene则会把索引数据与元数据同时进行存储。 好处:取数据比较容易。 坏处:索引比较大,可能会影响检索的速度 3) 是否进行排序 Lucene.net是支持排序的,包括整形排序、时间排序、字符串排序。

Lucene Field域类型

余生颓废 提交于 2020-03-22 18:28:14
Field 属性:   Field是文档中的域,包括Field名和Field值两部分,一个文档可以包括多个Field,Document只是Field的一个承载体,Field值即为要索引的内容,也是要搜索的内容。     是否分词 (tokenized)       是:作分词处理,即将Field值进行分词,分词的目的是为了索引。         比如:商品名称、商品描述等,这些内容用户要输入关键字搜索,由于搜索的内容格式大、内容多需要分词后将语汇单元建立索引       否:不作分词处理         比如:商品id、订单号、身份证号等     是否索引 (indexed)       是:进行索引。将Field分词后的词或整个Field值进行索引,存储到索引域,索引的目的是为了搜索。         比如:商品名称、商品描述分析后进行索引,订单号、身份证号不用分词但也要索引,这些将来都要作为查询条件。       否:不索引。         比如:图片路径、文件路径等,不用作为查询条件的不用索引。     是否存储 (stored)       是:将Field值存储在文档域中,存储在文档域中的Field才可以从Document中获取。         比如:商品名称、订单号,凡是将来要从Document中获取的Field都要存储。       否:不存储Field值    

python-jieba 安装+分词+定位

那年仲夏 提交于 2020-03-21 19:58:44
安装 : https://github.com/fxsjy/jieba 下载安装包 解压后 进入文件夹 cmd运行: Python setup.py install 使用: 分词:(test.py) import jieba result = jieba.cut("我叫张海鸥") print("/".join(result)) >>>我/叫/张/海鸥 分词+标签:(test_bug,py) import jieba import jieba.posseg as pseg words=pseg.cut("又跛又啞") for w in words: print(w.word,w.flag) 输出: 官方说明:主要功能 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的

python基础===jieba模块,Python 中文分词组件

旧巷老猫 提交于 2020-03-21 19:56:40
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度 基本用法: import jieba #全模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归 #精确模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = False) print("Default Mode:" + '/ '.join(word)) #>>>Default Mode:一人/ 我/ 饮酒/ 醉/ / 醉/ 把/ 佳人/ 成双/ 对/ / 两眼/ / 是/ 独/ 相随/ / 我/ 只求/ 他/ 日/ 能/ 双归 #默认是精确模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归") print(", ".join(word)) #>>>一人, 我, 饮酒,

结巴分词(Python中文分词组件)

谁说胖子不能爱 提交于 2020-03-21 19:55:01
1.安装 sudo pip install jieba 或者 下了jieba后 sudo python setup.py install 如果需要permission的话 2.使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。 jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射 来源: https://www.cnblogs.com

Python基于共现提取《釜山行》人物关系

早过忘川 提交于 2020-03-21 05:38:31
Python基于共现提取《釜山行》人物关系 一、课程介绍 1. 内容简介 《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取,使用python编写代码实现对《釜山行》文本的人物关系提取,最终利用Gephi软件对提取的人物关系绘制人物关系图。 2. 课程知识点 本课程项目完成过程中将学习: 共现网络的基本原理 Python代码对《釜山行》中人物关系提取的具体实现 jieba 库的基本使用 Gephi软件的基本使用 3. 课程来源 课程使用的操作系统为 Ubuntu 14.04 。你可以在我的 Github 上找到针对《釜山行》人物关系提取的全部代码。你也可以直接点击查看 共现网络简单的英文介绍 。 二、实验原理 实验基于简单共现关系,编写 Python 代码从纯文本中提取出人物关系网络,并用 Gephi 将生成的网络可视化。下面介绍共现网络的基本原理。你可以在我的博客查看对 共现网络简单的英文介绍 。 实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现,可以通过识别文本中已确定的实体(人名),计算不同实体共同出现的次数和比率。当比率大于某一阈值,我们认为两个实体间存在某种联系。这种联系可以具体细化,但提取过程也更加复杂。因此在此课程只介绍最基础的共现网络。 三、开发准备 打开Xfce终端,进入

中文分词-jieba

柔情痞子 提交于 2020-03-20 21:23:04
支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 1 、 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 2、安装 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 3、功能 3.1 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for

中文分词

梦想与她 提交于 2020-03-20 05:15:49
1、 名词说明 中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenizer和filter的组合来实现。 type:可选参数,index或者query,标明此配置是建立索引还是查询。若没有此参数,表示两种都适用。 tokenizer:分词器,接收text(通过重solr那里获取一个reader来读取文本),拆分成token stream filter过滤器,接收token stream,对每个token进行处理(比如:替换、丢弃),输出token stream。因此在配置文档中,Tokenizer放在第一位,Filter放在第二位直至最后一位。 2、分词工作流程简述 analyzer负责把文本field转化为token流,然后自己处理,或者调用tokenzier和filter进一步处理。Tokenzier和filter是同等级和顺序执行的关系,一个处理完后交给下一个处理。对于filter而言,一般通用的处理放在前面,特殊的处理靠后。 3、Smartcn分词器配置 在managed-schema文档中已经定义了一些分词规则。中文分词在solr中是没有默认开启的

jieba分词库的安装与使用

為{幸葍}努か 提交于 2020-03-16 19:53:38
Anaconda安装wordcloud GitHub: wordcloud 直接在Anaconda Prompt输入: conda install -c conda-forge wordcloud Anaconda安装jieba GitHub: jieba 方式一: 直接在Anaconda Prompt输入: conda install -c conda-forge jieba 。 方式二: 1.下载jieba压缩包: jieba 2. 将压缩包解压到anaconda下的pkgs目录下, 3. 进入pkgs目录下的jieba-0.39(或其他版本),打开命令行窗口(shift+右键),输入python setup.py install即可完成安装。 其他: 添加下载渠道, Anaconda 安装jieba 库报错 使用jieba分词库 jieba分词的原理 Jieba分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 jieba库常用函数 jieba.cut(s):精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut