分词 | 易学教程

Note of Jieba ( 词云图实例 )

阅读更多关于 Note of Jieba ( 词云图实例 )

Note of Jieba jieba库是python 一个重要的第三方中文分词函数库，但需要用户自行安装。一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式：精确模式：将句子最精确地切开，适合文本分析。全模式：将句子中所以可以成词的词语都扫描出来，速度非常快，但是不能消除歧义。搜索引擎模式：在精确模式的基础上，对长分词再次切分，提高召回率，适合搜索引擎分词。二、安装库函数 (1) 在命令行下输入指令： pip install jieba(2) 安装进程：三、调用库函数 (1) 导入库函数：import <库名> 使用库中函数：<库名> . <函数名> (<函数参数>) (2) 导入库函数：from <库名> import * ( *为通配符 ) 使用库中函数：<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能模式函数说明精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)

Lucene.net常用功能说明

阅读更多关于 Lucene.net常用功能说明

Lucene.net是一个.net下的全文检索类库。配置简单，功能丰富，比较成熟。我在项目中用Lucene.net有一段时间了，这里我把常用一些功能写出来，与大家一起分享。 Lucene.net用的是3.0版本，分词采用盘古分词。示例程序用VS2010进行编译。 1 索引在做索引时，有些参数是需要配置的，下面介绍下常用的参数配置。 1) 数据类型，如整形、时间、字符。每种类型生成的索引方式都是不同的。比如：字符串需要分词，整形数据则不需要。生成索引的方式会影响到检索，如果整形按照字符串的方式生成索引，则比较不容易实现区域检索：如，ID>1000 and ID<2000。时间索引比较特殊一些。Lucene.net无法对时间字段进行排序和区域检索，所以，要把时间字段转成长整形来实现。时间索引参考如下代码： var time = DateTime.Now; var timeField = new NumericField("Publish", Field.Store.YES, true).SetLongValue(time.Ticks); 2) 是否存储元数据。如果进行存储，Lucene则会把索引数据与元数据同时进行存储。好处：取数据比较容易。坏处：索引比较大，可能会影响检索的速度 3) 是否进行排序 Lucene.net是支持排序的，包括整形排序、时间排序、字符串排序。

Lucene Field域类型

阅读更多关于 Lucene Field域类型

Field 属性：　　Field是文档中的域，包括Field名和Field值两部分，一个文档可以包括多个Field，Document只是Field的一个承载体，Field值即为要索引的内容，也是要搜索的内容。　　　　是否分词 (tokenized) 　　　　　　是：作分词处理，即将Field值进行分词，分词的目的是为了索引。　　　　　　　　比如：商品名称、商品描述等，这些内容用户要输入关键字搜索，由于搜索的内容格式大、内容多需要分词后将语汇单元建立索引　　　　　　否：不作分词处理　　　　　　　　比如：商品id、订单号、身份证号等　　　　是否索引 (indexed) 　　　　　　是：进行索引。将Field分词后的词或整个Field值进行索引，存储到索引域，索引的目的是为了搜索。　　　　　　　　比如：商品名称、商品描述分析后进行索引，订单号、身份证号不用分词但也要索引，这些将来都要作为查询条件。　　　　　　否：不索引。　　　　　　　　比如：图片路径、文件路径等，不用作为查询条件的不用索引。　　　　是否存储 (stored) 　　　　　　是：将Field值存储在文档域中，存储在文档域中的Field才可以从Document中获取。　　　　　　　　比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。　　　　　　否：不存储Field值　　　

python-jieba 安装+分词+定位

阅读更多关于 python-jieba 安装+分词+定位

安装： https://github.com/fxsjy/jieba 下载安装包解压后进入文件夹 cmd运行： Python setup.py install 使用：分词：（test.py） import jieba result = jieba.cut("我叫张海鸥") print("/".join(result)) >>>我/叫/张/海鸥分词+标签：(test_bug,py) import jieba import jieba.posseg as pseg words=pseg.cut("又跛又啞") for w in words: print(w.word,w.flag) 输出：官方说明：主要功能分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的

python基础===jieba模块，Python 中文分词组件

阅读更多关于 python基础===jieba模块，Python 中文分词组件

api参考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度基本用法： import jieba #全模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归 #精确模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归", cut_all = False) print("Default Mode:" + '/ '.join(word)) #>>>Default Mode:一人/ 我/ 饮酒/ 醉/ / 醉/ 把/ 佳人/ 成双/ 对/ / 两眼/ / 是/ 独/ 相随/ / 我/ 只求/ 他/ 日/ 能/ 双归 #默认是精确模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归") print(", ".join(word)) #>>>一人, 我, 饮酒,

结巴分词(Python中文分词组件)

阅读更多关于结巴分词(Python中文分词组件)

1.安装 sudo pip install jieba 或者下了jieba后 sudo python setup.py install 如果需要permission的话 2.使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。 jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射来源： https://www.cnblogs.com

Python基于共现提取《釜山行》人物关系

阅读更多关于 Python基于共现提取《釜山行》人物关系

Python基于共现提取《釜山行》人物关系一、课程介绍 1. 内容简介《釜山行》是一部丧尸灾难片，其人物少、关系简单，非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取，使用python编写代码实现对《釜山行》文本的人物关系提取，最终利用Gephi软件对提取的人物关系绘制人物关系图。 2. 课程知识点本课程项目完成过程中将学习：共现网络的基本原理 Python代码对《釜山行》中人物关系提取的具体实现 jieba 库的基本使用 Gephi软件的基本使用 3. 课程来源课程使用的操作系统为 Ubuntu 14.04 。你可以在我的 Github 上找到针对《釜山行》人物关系提取的全部代码。你也可以直接点击查看共现网络简单的英文介绍。二、实验原理实验基于简单共现关系，编写 Python 代码从纯文本中提取出人物关系网络，并用 Gephi 将生成的网络可视化。下面介绍共现网络的基本原理。你可以在我的博客查看对共现网络简单的英文介绍。实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现，可以通过识别文本中已确定的实体（人名），计算不同实体共同出现的次数和比率。当比率大于某一阈值，我们认为两个实体间存在某种联系。这种联系可以具体细化，但提取过程也更加复杂。因此在此课程只介绍最基础的共现网络。三、开发准备打开Xfce终端，进入

中文分词-jieba

阅读更多关于中文分词-jieba

支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议 1 、算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法 2、安装代码对 Python 2/3 均兼容全自动安装： easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install 手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录通过 import jieba 来引用 3、功能 3.1 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for

中文分词

阅读更多关于中文分词

1、名词说明中文分词要处理的数据为文本数据：solr.TextField，需在schema.xml文件中做相关配置，配置选项如下： analyzer：告诉solr在建立索引和搜索的时候，如何处理text类型的内容。它在schema.xml文件中配置，可以直接指定一个类给它，也可以由tokenizer和filter的组合来实现。 type:可选参数，index或者query，标明此配置是建立索引还是查询。若没有此参数，表示两种都适用。 tokenizer:分词器，接收text（通过重solr那里获取一个reader来读取文本），拆分成token stream filter过滤器，接收token stream，对每个token进行处理（比如：替换、丢弃），输出token stream。因此在配置文档中，Tokenizer放在第一位，Filter放在第二位直至最后一位。 2、分词工作流程简述 analyzer负责把文本field转化为token流，然后自己处理，或者调用tokenzier和filter进一步处理。Tokenzier和filter是同等级和顺序执行的关系，一个处理完后交给下一个处理。对于filter而言，一般通用的处理放在前面，特殊的处理靠后。 3、Smartcn分词器配置在managed-schema文档中已经定义了一些分词规则。中文分词在solr中是没有默认开启的

jieba分词库的安装与使用

阅读更多关于 jieba分词库的安装与使用

Anaconda安装wordcloud GitHub: wordcloud 直接在Anaconda Prompt输入： conda install -c conda-forge wordcloud Anaconda安装jieba GitHub: jieba 方式一：直接在Anaconda Prompt输入： conda install -c conda-forge jieba 。方式二： 1.下载jieba压缩包： jieba 2. 将压缩包解压到anaconda下的pkgs目录下， 3. 进入pkgs目录下的jieba-0.39（或其他版本），打开命令行窗口（shift+右键），输入python setup.py install即可完成安装。其他：添加下载渠道， Anaconda 安装jieba 库报错使用jieba分词库 jieba分词的原理 Jieba分词依靠中文词库利用一个中文词库，确定汉字之间的关联概率汉字间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组 jieba分词的三种模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式基础上，对长词再次切分 jieba库常用函数 jieba.cut(s)：精确模式，返回一个可迭代的数据类型 jieba.cut(s,cut

订阅分词