结巴分词

关于文本处理之结巴分词

旧时模样 提交于 2019-12-24 00:23:57
中文文本最常用的就我而言应该就是结巴分词的分词工具。当然还有其他分词工具Hanlp、THULAC、LTP、NLPIR等。 结巴分词安装:pip install jieba(全自动安装) or 下载结巴,然后解压运行python setup.py install(半自动) or python3.X 下的安装方式: Github 上 jieba 的 Python3.x 版本的路径是: https://github.com/fxsjy/jieba/tree/jieba3k 通过 git clone https://github.com/fxsjy/jieba.git 命令下载到本地,然后解压,再通过命令行进入解压目录,执行 python setup.py install 命令,即可安装成功。 jieba 的分词算法 主要有以下三种: 基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG); 基于DAG图,采用动态规划计算最大概率路径(最有可能的分词结果),根据最大概率路径分词; 对于新词(词库中没有的词),采用有汉字成词能力的 HMM 模型进行切分。 jieba 分词 下面我们进行 jieba 分词练习,第一步首先引入 jieba 和语料: import jieba content = "现如今

python结巴分词

淺唱寂寞╮ 提交于 2019-12-17 08:34:57
转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库。 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 import jieba s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。' cut = jieba.cut(s) print '【Output】' print cut print ','.join(cut) 【Output】 <generator object cut at 0x7f8dbc0efc30> 我,想,和,女朋友,一起,去,北京故宫博物院,参观,和,闲逛,。 可见分词结果返回的是一个生成器(这对大数据量数据的分词尤为重要)。 全模式 print '【Output】' print ','.join(jieba.cut(s,cut_all = True)) 【Output】 我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛,, 可见全模式就是把文本分成尽可能多的词。 搜索引擎模式 print '【Output】' print ','.join(jieba.cut_for_search(s))

谁说程序员不浪漫?Python导出微信聊天记录生成爱的词云图

混江龙づ霸主 提交于 2019-12-06 03:21:42
明天又双叒叕是一年一度的七夕恋爱节了! 又是一波绝好的机会!恩爱秀起来! 购物车清空!礼物送起来!朋友圈晒起来! 等等! 什么?! 你还没准备好七夕礼物么? 但其实你不知道要送啥? 原来又双叒叕要到了 全民不知道送什么礼物的系列日子了… 需要Python软件工具和学习资料的小伙伴可以点击下方链接自行获取 http://note.youdao.com/noteshare?id=7e3c432b74512d52b75aafc4609451b9 哎呦 你们这些 磨人的小(lao)妖(you)精(tiao)! Python倒是觉得你还可以抢救一下! 说到词云应该不陌生,不知道的童靴往下看 词云,就是把网络文本中出现频率较高的 "关键词"予以视觉上的突出 浏览者只要一眼扫过文本就可以领略其主旨 瞧 这是不是一个有声音、有画面的小爱心~ 今天 我们采集情侣们之间的聊天日常 用此制作一份只属于你们的小浪漫! 第一步,我们需要导出自己和对象的数据~ 微信的备份功能并不能直接给你导出文本格式,它导出来其实是一种叫sqlite的数据库。如果说用网上流传的方法提取文本数据,iOS则需要下载itunes备份整机,安卓则需要本机的root权限,无论是哪种都非常麻烦,在这里给大家介绍一种不需要整机备份和本机root权限,只导出和对象的聊天数据的方法。 那就是使用安卓模拟器导出,这样既能ios/安卓通用

jieba完整文档

廉价感情. 提交于 2019-12-05 22:02:55
jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 在线演示 http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) 网站代码: https://github.com/fxsjy/jiebademo 安装说明 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup

【NLP】【一】中文分词之jieba

假如想象 提交于 2019-12-04 11:07:42
声明:本文参考jieba官方文档而成,官方链接:https://github.com/fxsjy/jieba 【一】jieba安装 pip install jieba 【二】jieba简介 简介可见jieba官方说明:https://pypi.org/project/jieba/ 总而言之,jieba用于中文分词,支持的文本编码格式为utf-8,支持的功能包括:中文分词、关键字提取、词性标注 整体功能如下图: 【三】结巴使用之分词 1. 使用精确模式 # -*- coding:utf-8 -*- import jieba sentence = "我爱北京天安门" seg = jieba.cut(sentence=sentence) print("/".join(seg)) 结果如下: 我/爱/北京/天安门 2. 使用全模式 import jieba sentence = "我爱北京天安门" seg = jieba.cut(sentence=sentence,cut_all=True) print("/".join(seg)) 结果如下: 我/爱/北京/天安/天安门 3.使用搜索模式 # -*- coding:utf-8 -*- import jieba sentence = "我爱北京天安门" seg = jieba.cut_for_search(sentence=sentence

基于IKAnalyzer搭建分词服务

匿名 (未验证) 提交于 2019-12-03 00:41:02
前端高亮需要分词服务,nlp团队提供的分词服务需要跨域调用,而且后台数据索引使用的IK分词。综合评价,前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新,且对Lucene支持仅测试到4.x.x版本(6.x.x会出现异常),因此使用IK分词器时需要解决一些异常。 项目以及maven构建,需要指定IK依赖以及Lucene依赖如下: <dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>4.10.4</version> </dependency> import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea

结巴分词

匿名 (未验证) 提交于 2019-12-03 00:25:02
python结巴分词、jieba加载停用词表 2017年09月03日 21:50:19 阅读数:32332 python结巴分词 python结巴分词 jieba中文分词简介 中文分词的原理 1 基于规则 2 基于统计 3 jieba的原理 安装结巴jieba jieba三种分词模式以及其应用 jieba增强功能-加载自定义词典 1 载入新自定义词典 2 载入停用词表 jieba分词的其他应用 1 关键词提取 2 词性标注 用jieba分词实战含文件的读取与存储 1 jieba中文分词简介 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统。 这里推荐的是一款完全开源、简单易用的分词工具,jieba中文分词。官网在这里, https://github.com/fxsjy/jieba 2 中文分词的原理 中文分词的模型实现主要分类两大类:基于规则和基于统计。 2.1 基于规则 基于规则是指根据一个已有的词典,采用前向最大匹配、后向最大匹配、双向最大匹配等人工设定的规则来进行分词。 例如对于“上海自来水来自海上”这句话,使用前向最大匹配,即从前向后扫描,使分出来的词存在于词典中并且尽可能长,则可以得到“上海/自来水/来自/海上”。这类方法思想简单且易于实现,对数据量的要求也不高。 当然

NLP―三种中文分词工具

匿名 (未验证) 提交于 2019-12-02 23:57:01
  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。 cws.model 。在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗机 埃达尔・阿勒坎 # -*- coding: utf-8 -*- import os import jieba import pkuseg from pyltp import Segmentor lexicon = ['经', '少安', '贺凤英', 'F-35战斗机', '埃达尔・阿勒坎'] # 自定义词典 # 哈工大LTP分词 def ltp_segment(sent): # 加载文件 cws_model_path = os.path.join('data/cws.model') # 分词模型路径,模型名称为`cws.model` lexicon_path = os.path.join('data/lexicon.txt') # 参数lexicon是自定义词典的文件路径 segmentor = Segmentor() segmentor.load_with_lexicon(cws_model_path, lexicon_path) words = list(segmentor.segment(sent)) segmentor.release() return words # 结巴分词

Python第三方库jieba(结巴-中文分词)入门与进阶(官方文档)

匿名 (未验证) 提交于 2019-12-02 22:56:40
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址: https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba pip3 install jieba http://pypi.python.org/pypi/jieba/ python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut jieba.cut_for_search 待分词的字符串可以是

自然语言处理从小白到大白系列(6)说说中文分词那些事

橙三吉。 提交于 2019-12-02 05:06:24
文章目录 一. 分词常用方法 1.1 基于词表的方法 最大匹配法 全切分路径选择法 1.2 基于统计模型的方法 1. n元语法模型 2. 隐马尔可夫模型(Hidden Markov Model ,HMM) 3. 条件随机场模型(Conditional Random Fields,CRF) 1.3 基于深度学习的方法 二. 分词常用工具 2.1 [jieba](https://github.com/fxsjy/jieba) 2.2 [hanLP](https://github.com/hankcs/pyhanlp) 2.3 [PKUseg](https://github.com/lancopku/pkuseg-python) 2.4 [thulac](https://github.com/thunlp/THULAC-Python) 2.5 [nlpir](https://github.com/NLPIR-team/NLPIR) 2.6 [snowNLP](https://github.com/isnowfy/snownlp) 自然语言处理的中文分词有三个难点: 分词标准 例如“花草”,有的人认为是一个词,有的人认为应该划分开为两个词“花/草”。某种意义上,中文分词可以说是一个没有明确定义的问题。 切分歧义 不同的切分结果会有不同的含义,这个不用举例了,很常见。 未登录词 也叫新词发现