词库

jieba分词库的安装与使用

為{幸葍}努か 提交于 2020-03-16 19:53:38
Anaconda安装wordcloud GitHub: wordcloud 直接在Anaconda Prompt输入: conda install -c conda-forge wordcloud Anaconda安装jieba GitHub: jieba 方式一: 直接在Anaconda Prompt输入: conda install -c conda-forge jieba 。 方式二: 1.下载jieba压缩包: jieba 2. 将压缩包解压到anaconda下的pkgs目录下, 3. 进入pkgs目录下的jieba-0.39(或其他版本),打开命令行窗口(shift+右键),输入python setup.py install即可完成安装。 其他: 添加下载渠道, Anaconda 安装jieba 库报错 使用jieba分词库 jieba分词的原理 Jieba分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 jieba库常用函数 jieba.cut(s):精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut

“我爱记单词”之用户规格需求说明

混江龙づ霸主 提交于 2020-02-25 20:01:35
  用户规格需求说明 一、概述   本项目为英语单词学习助手,名为“我爱记单词”。主要提供服务包括:单词查询,单词测试,单词记忆和中英互译。目前开发的是单机版本,用户可以根据自己的需求灵活的使用相应功能。该版本主打单词记忆功能,通过有效的规划与方法帮助用户更有效地记忆单词。   目前市场上已经存在许多类似的单词记忆软件,如疯狂单词无忧记忆、e时代英语等。我们对这些软件做了相应的评估分析,取长补短并加入自己的创意,争取做一个广受大众欢迎的英语单词学习产品。 二、产品面向的用户群体   产品面向的用户十分广泛,包括想要学习英语的普通人和准备英语考试的学生。由于不做盈利,我们暂时不会对用户的级别作区分。 为了便于初期的推广,我们决定暂不采用账户登录的方式,即用户打开软件即可免注册直接使用。   用户可以进行如下操作:   (1) 进行单词测验;   (2) 从词库里查阅单词   (3) 背单词   (4) 中英互译   重点介绍一下该版本添加的背单词的功能:   (1) 用户在学习或者复习的时候可以点认识、模糊、忘记来区分自己对单词的第一印象,以便软件更好地帮助用户学习;   (2) 用户可以根据自己的需求选择相应的选词库进行背单词,如国内考试中的四级词汇、六级词汇、考研词汇与出国考试中的GRE词汇、TOEFL词汇等;   (3) 用户可以查看自己背单词的统计结果

中文词频统计与词云生成

不羁的心 提交于 2020-02-18 19:52:28
中文词频统计: 作业连接: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 jieba.load_userdict(word_dict) #词库文本文件 参考词库下载地址:https://pinyin.sogou.com/dict/ 转换代码:scel_to_text 5. 生成词频统计 6. 排序 7. 排除语法型词汇,代词、冠词、连词等停用词。 stops 8. 输出词频最大TOP20,把结果存放到文件里 9. 生成词云。 本案例统计红楼梦词频: 1.在网上下载红楼梦txt文件 2.使用PyCharm 编译器自动下载 jieba 包 3.搜狗文库中下载红楼梦词库,并将词库.scel文件转化为txt文件 4.先将转化为txt形式的词库文件加入,再对红楼梦文本进行词频统计,统计出频率最高的20个词: ``` import jiebatxt = open(r"C:\Users\Administrator

Week2 Team Homework: 必应输入法的软件分析和用户需求调查

陌路散爱 提交于 2020-02-02 01:09:45
一、选题和目标人群的确定   4月8日,微软宣布推出首款整合搜索的中文云输入法“必应Bing输入法”,其前身是“英库拼音输入法”。微软宣称,该输入法界面干净,无广告、无插件,即使是在性能相对不高的电脑上,也可以流畅的输入,是微软第一款带有云词库的输入法。 在搜狗、百度、google、QQ等输入法抢占了市场先机的情况下,我们组的成员一致对bing输入法的产品现状和未来的发展态势充满了研究兴趣。经投票表决,我们将必应输入法确定为我们组的研究对象。 关于目标人群的选择,我们将集中在大学生这一群体上。以身边计算机系的同学和来自全国各校各专业的团队成员好友为主。    二、用户调研 切实的调研是研究软件需求的基础,在这里我们选取了两种调研方式,分别为 用户调查问卷、深入面谈。 2.1用户调查问卷 我们针对我们的研究主题,设计了如下问题: 1、请问你平时一般使用什么输入法? 2、你使用过必应输入法吗?(如果没有直接跳转到6) 3、你觉得必应的输入法实用吗? 4、你觉得必应输入法有什么缺点吗? 5、你觉得必应输入法什么功能不是必须的? 6、你为什么选择你现在最常用的这种输入法? 7、你觉得你现在最常用的输入法没有满足你的什么需求/有什么缺点? 我们通过现实询问或网络传送的形式回收了142份调查问卷,完整过程较长,做一些简单的摘录整理如下。 受访用户均是学生,来自北京航空航天大学(大部分)

搜狗输入法关于Google侵权的再次声明

允我心安 提交于 2020-01-19 03:32:14
【搜狐IT消息】Google自推出中文输入法一来,引起了业界的一片讨伐之声,网民直指Google盗用搜狗输入法词库。为此,搜狗输入法在4月8日发表声明指责Google盗用词库,随后Google正式发表声明,承认词库包含了非自有数据,并于4月9日在其官方博客正式声明向搜狐道歉。 4月10日,搜狗输入法发表了再次声明,表示欢迎Google的道歉态度,但对Google的严重侵犯知识产权的行为表示不能接受,并要求Google立即停止输入法的下载和运营。 以下为声明全文: 搜狗输入法关于Google侵权的再次声明: 搜狐公司认为,Google盗用搜狗输入法词库是对搜狗输入法著作权的侵权,是对搜狗技术人员劳动成果的不尊重。对于Google公司致歉的态度,搜狐公司表示欢迎。 但是,我们认为,搜狗输入法是搜狗研发中心工程师和高层领导共同探讨进行的重大技术革新和重大的技术突破,是人类首次将搜索引擎技术,用于分析中文互联网网民的语言行为,对网民上网行为进行动态的信息提取,把网民集体智慧经过动态技术分析和提炼,以输入法的方式回馈网民。 对网民的搜索行为进行深度研究,从而服务于网民,形成高度智能的输入法,即用搜索引擎做输入法,这是一次重大的技术革新。搜狗输入法使中国人的输入速度提高一至两倍,在中国迅速崛起的大背景下,将使中国人和中国文化以更快速的方法占有和形成全球互联网的话语权,是对中华文明的重大贡献

Linux下安装StarDict(星际译王)词典

喜欢而已 提交于 2020-01-14 12:18:09
之前安装过一次,这次系统重装,词库忘了保存。由于原项目地址现已停,词库也不大容易找到,现整理如下,供大家参考。 环境 Ubuntu 11.10 64位,以下指令默认在sudo下执行,需要切换权限的自行处理。 1、安装StarDict Ubuntu软件中心安装 #apt-get install stardict http://code.google.com/p/stardict-3/downloads/list 可下载.deb包(CentOS系选择.rpm)或者下载源码包自己编译安装(.configure,make,make install),这里不多赘述。 2、添加词库 http://abloz.com/huzheng/stardict-dic/zh_CN/ 选择合适的词库,我选择了牛津双解,朗道英汉汉英,计算机词汇。 #tar -xjvf *.tar.bz2 #mv *.2.4.2 /usr/share/stardict/dic (默认安装方式,词库在此目录,自定义安装请找到对应目录) 一次性解压多个文件用如下命令: #for i in *.tar.bz2;do tar -xjvf $i -C /usr/share/stardict/dic;done PS.还有一种.deb格式的词汇包,双击即可。 至此StarDict就可以使用了。 来源: https://www.cnblogs

关于ubuntu下词典安装

故事扮演 提交于 2020-01-14 12:16:29
圣诞快乐!merry xmas! 身为程序猿和研究僧,英文文献是经常接触的,所以在ubuntu下当然需要一款英汉词典啦 查了下推荐stardict的比较多,于是学着安装了下,感觉还不错,但是只有词典功能(可以下载本地词库,后面将详细说明),全文翻译的功能必须要联网,而且可选的服务器都被墙了...所以如果要全文翻译的小伙伴可以选择其他方法,具体我也在找,实在不行就在线google翻译把- . - 接下来继续讲stardict的安装 step1:在软件商店里搜stardict安装就行 step2: 打开后发现是无法翻译的,因为还没有安装词库 所以第二步是安装词库,可以到这个网站选择自己需要的(推荐的那几个就不错) http://abloz.com/huzheng/stardict-dic/zh_CN/ step3:下载后在终端解压,默认的安装路径就在Downloads文件下的,然后把下载的解压移动到usr里的stardict目录下,具体命令一句就可以,这里以stardict-cedict-gb-2.4.2.tar.bz2位例子,安装其他词库方法一样,只需要修改解压的文件名就行 sudo tar -xjvf ~/Downloads/stardict-cedict-gb-2.4.2.tar.bz2 -C /usr/share/stardict/dic step4:解压好后

打造自己的coreseek分词词库

廉价感情. 提交于 2019-12-07 12:03:44
下面给大家介绍一下如何打造自己的coreseek分词词库。 coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词 词库必不可少。   i. 首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库   ii. 因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件。网上找一个搜狗转 google的小工具,用它把你下载的全部词库转成文本文件。合并为一个文件命名为words.txt。文件要用utf8编码 保存,如果想直接使用我下面的工具进行转换的话文件名一定要是words.txt。如果你想自己转换请参考官网上的方 法http://www#coreseek#cn/opensource/mmseg/   iii. 现在我们有了一个初步的词库,但这个词库还不能直接使用,要再整理并转换coreseek使用的格式才行。 这里我提供一个自己编写的小程序方便转换。 源程序如下: /** Last edit 2012-8-11 Copyrigh@ www.4ji.cn **/ ini_set('max_execution_time','6000'); $buffer=ini_get('output_buffering'); if($buffer)ob_end_flush(); echo '处理新词库..

有哪些 必装软件或者app

故事扮演 提交于 2019-12-07 00:39:02
这个话题,相信有很多人已经写过了。为什么我还要写,像隔壁的小翁买了台电脑,问我需要装什么软件啊,我真想抽他一耳光,说自己百度。当然是没有打的O(∩_∩)O哈哈~。(跑题了)这里我分享一下我自己的电脑的一些软件及APP吧,希望能帮到各位大爷。 01 Any Mp4 PDF转化器阅读器 anymp4 mts converter 是目前网络上最优秀的一款 mts格式转换软件 ,使用该软件可以将MTS,M2TS,TS等视频格式转换为android、iphone、ipad等多种设备支持的视频和音频文件,具体包括AVI,MP4,MOV,M4V,MPEG,FLV,MKV,AC,AIFF,MP3,WAV等多种格式。另外软件还支持对视频进行简单的编辑操作,包括剪切、调色、加水印等等, 唯一的缺点就是软件不是中文版,但已经成功破解,用户可以无限制免费使用。 (图片来自由网络) 02 欧路词典 非常适合学英语 人 感觉它更适合英语学习的人使用,比如我查找一个英文词语,欧路除了该词本身的释义以外,还有近义词、百科参考等等信息。还有一个“学习”功能,英语学习者或对英语翻译有更高要求的人比较适用。 欧路词典桌面版 是一款运行在Windows平台上最好用的电脑词典软件,支持海量扩充词库,包括Mdict、灵格斯、Babylon等词库,并内置常用英汉词条30多万个,专业词条40万个,是目前网络上最好用的词典软件

C#汉字转拼音,自动识别多音字,带声调,提供正向、逆向、双向分词算法的小程序

北慕城南 提交于 2019-12-03 14:12:58
用C#写了个汉字转拼音的小工具,和网上大部分工具不同,这个能通过分词算法,自动识别多音字,并且提供声调,可开可关。 比如,用"银行 行不行 行家说了算"举例,如果转拼音却不能识别多音字,就惨了。 而这个小工具的效果如图: 实现了3种分词算法: * 正向最大匹配 * 反向最大匹配 * 双向最大匹配 (其中,双向匹配的歧义处理办法,是本人小小创新的"双贪吃蛇法"。 算法详情参见: http://my.oschina.net/u/1270374/blog/164042 ) 软件下载: http://pan.baidu.com/s/1mTg3T -----------------源代码(含生成好的程序)-------------------- 百度网盘: http://pan.baidu.com/s/1ED1Ls 腾讯微云: http://url.cn/PnnMOU 源代码使用注意: * bin/release目录下,已经包含了生成的软件。 * 因为词库的中文单字非常不全,所以引用了微软的ChnCharInfo.dll,来获得一些单字拼音。这个库是要下载Visual Studio International Pack安装才会有,不想安装的话,可以 直接从bin/release里面找到,重新引用一下就行了。 * 词库来源:把 搜狗拼音词库备份bin文件,通过"深蓝词库转换工具",转成