分词

python 词云小demo

孤街浪徒 提交于 2020-03-03 09:11:56
词云小demo jieba wordcloud 一 什么是词云? 由词汇组成类似云的彩色图形。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 二 有什么作用? 1、直观,高大上 2、可装逼,很潇洒 三 准备工作 1、导入包——jieba和wordcloud 命令:pip install jieba 命令:pip install wordcloud 备注:对于pycharm等可采用各自的方法导入包 2、文本和图片的准备 文本:可爬取网上资料或某歌曲书籍等关键字,亦或是像我是自己手动输入文字并用tab隔开 图片:找自己喜欢的图片,这里我采用乔巴的图片作为背景,而且除了主要人物外,其他背景都为白色,显示效果较好。 采用的文本内容: paper going keep fighting happy Backpropagation/BP AI Technology Chine new year you tahnks hha hmmm emmm yesterday sunday Batch Normalization/BN autoencoder ALL Data big math python abc Thanks for your reminder, I’ll

中文全文检索

元气小坏坏 提交于 2020-03-02 06:45:07
中文全文检索 MySQL不支持中文全文检索,因为中文一句话是连着写的,不像英文单词间有空格分隔。解决办法就是中文分词(关于中文分词请参阅其它文章),如果你的MySQL是安装在Windows平台上的,可以不用转码直接存储中文就可以使用全文索引,如本例。但是如果你的MySQL是安装在Linux上的则需要进行转编码(urlencode / base64_encode / json_encode / 区位 / 拼音)等方案,具体方案参看其它博文。 MYSQL全文搜索通过 MATCH() 函数完成。   下面举一简单例子:   1、新建数据表:   CREATE TABLE fulltext_sample(copy TEXT,FULLTEXT(copy)) TYPE=MyISAM;   这里的copy就是一个fulltext类型的字段,如果建表的时候没有添加全文检索字段,也可以通过alert来添加,如:   ALTER TABLE fulltext_sample ADD FULLTEXT(copy)   2、插入数据:   INSERT INTO fulltext_sample VALUES   ('It appears good from here'),   ('The here and the past'),   ('Why are we hear'),   ('An all-out

jieba库的使用

浪尽此生 提交于 2020-03-02 01:07:42
1. jieba库概述 jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 2. jieba库的安装 (cmd命令行)pip install jieba 3. jieba的分词原理 利用一个中文词库,确定中文字符之间的关联概率 中文字符间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 4. jieba库的使用 4.1 jieba分词的的三种模式 精确模式:把文本精确地切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式的基础上,对长词再次切分 4.2 jieba库常用函数 jieba.lcut(s)★ —— 精确模式,返回一个列表类型的分词结果 >> > import jieba >> > jieba . lcut ( "中国是一个伟大的国家" ) [ '中国' , '是' , '一个' , '伟大' , '的' , '国家' ] jieba.lcut(s, cut_all=True) —— 全模式,返回一个列表类型的结果,存在冗余 >> > jieba . lcut ( "中国是一个伟大的国家" , cut_all = True ) [ '中国' , '国是' , '一个' , '伟大' ,

基于高维聚类技术的中文关键词提取算法

若如初见. 提交于 2020-03-01 04:34:44
[摘要] 关键词 提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取 算法 。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。 引言     关键词提取是通过对一篇输入文章做内容分析,按一定比例或字数要求提取出重要且语义相似性凝聚的关键词的过程。关键词自动提取是文本挖掘领域的一个重要分支,在自动摘要、文本分类、文本聚类、文本过滤、话题跟踪、信息检索、自动问答等很多领域有重要作用。   迄今为止,关键词自动提取吸引了不少国内外学者的关注和研究,其理论成果主要包括基于统计信息的方法、机器学习方法和浅层式语义分析方法三大类。其中应用最为广泛的是基于统计信息的关键词提取方法,具备简洁易懂、通用性强等优势。   本文针对基于统计信息关键词提取方法准确率不高的问题,引入高维聚类思想进行改进,提出基于高维聚类技术的中文关键词自动提取算法。经过基于小词典的快速分词、二次分词、高维聚类、关键词甄选四个步骤,算法抽取出的关键词更加准确,并且具有更好的稳定性和更高的效率。 关键词提取方法   关键词自动提取方法分为基于统计信息的方法

使用余弦相似度算法计算文本相似度-数学

China☆狼群 提交于 2020-03-01 02:23:27
使用余弦相似度算法计算文本相似度 </h1> <div class="clear"></div> <div class="postBody"> 在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来,其实很简单,都是高中学过的知识,只是很多年没用了,都还给老师了。本文还通过一个例子演示如果使用余弦相似度计算两段文本的相似度。 余弦函数在三角形中的计算公式为: 在直角坐标系中,向量表示的三角形的余弦函数是怎么样的呢?下图中向量a用坐标(x1,y1)表示,向量b用坐标(x2,y2)表示。 向量a和向量b在直角坐标中的长度为 向量a和向量b之间的距离我们用向量c表示,就是上图中的黄色直线,那么向量c在直角坐标系中的长度为 ,将a,b,c带入三角函数的公式中得到如下的公式: 这是2维空间中余弦函数的公式,那么多维空间余弦函数的公式就是: 余弦相似度 余弦相似度量:计算个体间的相似度。 相似度越小,距离越大。相似度越大,距离越小。 假设有3个物品,item1,item2和item3,用向量表示分别为: item1[1,1,0,0,1], item2[0,0,1,2,1], item3[0,0,1,2,0], 即五维空间中的3个点。用欧式距离公式计算item1、itme2之间的距离

HanLP 关键词提取算法分析详解

六眼飞鱼酱① 提交于 2020-03-01 01:23:03
HanLP 关键词提取算法分析 详解 l 参考论文:《 TextRank: Bringing Order into Texts》 l TextRank算法提取关键词的Java实现 l TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 In this paper, we introduce the TextRank graphbased ranking model for graphs extracted from natural language texts TextRank是一个非监督学习算法,它将文本中构造成一个图,将文本中感兴趣的东西(比如分词)当成一个个顶点,然后应用TextRank算法来抽取文本中的一些信息。 Such keywords may constitute useful entries for building an automatic index for a document collection, can be used to classify a text, or may serve as a concise summary for a given document. 提取出来的关键词,可用来作为文本分类,或者概括文本的中心思想。 TextRank通过不断地迭代来提取关键词,每一轮迭代

基于docker 的 elasticstrach安装和基本使用

醉酒当歌 提交于 2020-03-01 00:33:01
elasticstrach 使用 前面我们讲过elasticstrach+kibana安装,本次介绍的是基于docker的elasticsearch的使用。 1. elasticstrach介绍 开源的 Elasticsearch 是目前全文搜索引擎的首选。 Elasticsearch 不支持对中文进行分词建立索引,需要配合扩展ik分词器[elasticsearch-ik]来实现中文分词处理。 2. docker 安装elasticsearch-ik 在拉取docker镜像前,先配置镜像加速,根据以下步骤玩镜像加速配置 # 镜像加速配置 sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json << - 'EOF' # 修改配置文件 { "registry-mirrors" : [ "https://2xdmrl8d.mirror.aliyuncs.com" ] } EOF # 重启docker sudo systemctl daemon-reload sudo systemctl restart docker 拉取elasticsearch-ik分词器镜像 # 拉取ik分词器 sudo docker pull bachue/elasticsearch-ik:6.2.4 使用本地镜像 sudo docker load -i

1.5.3 什么是Tokenizer-分词

不打扰是莪最后的温柔 提交于 2020-02-29 10:16:28
什么是Tokenizer-分词   分词器的工作就是分解文本流成词(tokens).在这个文本中,每一个token都是这些字符的一个子序列.一个分析器(analyzer)必须知道它所配置的字段,但是tokenizer不需要,分词器(tokenizer)从一个字符流(reader)读取数据,生成一个Token对象(TokenStream)的序列.   输入流中的一些字符可能会被丢弃,如空格和一些分隔符;也可能会被添加或者替换,如别名映射和缩写.一个token包含多种元数据除了它的原始文本值,如字段中词(token)出现的位置.因为分词器从输入文本中发散之后生成词(tokens),你是不能假定token的文本和字段中出现的文本相同的.在原始的文本中很有可能超过一个的token拥有相同的位置或者关联相同的偏移量(offset).如果你使用token元数据做高亮时,请注意这一点儿. <fieldType name="text" class="solr.TextField"> <analyzer> <tokenizer class="solr.StandardTokenizerFactory" /> </analyzer> </fieldType>   这里边tokenizer元素的class的值并不是实际的值,而是一个实现了org.apache.solr.analysis

win下Elasticsearch环境搭建

大城市里の小女人 提交于 2020-02-27 01:00:29
1 Elasticsearch介绍和安装 1.1 简介 1.1.1 Elastic Elastic官网: https://www.elastic.co/cn/ Elastic有一条完整的产品线:Elasticsearch、Logstash、Kibana等,前面说的三个就是大家常说的ELK技术栈。 1.1.2 Elasticsearch Elasticsearch官网: https://www.elastic.co/cn/products/elasticsearch 如上所述,Elasticsearch具备以下特点: 分布式 , 无需人工搭建集群 (solr就需要人为配置,使用Zookeeper作为注册中心) Restful风格 ,一切API都遵循Rest原则,容易上手 近实时搜索,数据更新在Elasticsearch中几乎是完全同步的。 1.1.3 版本 目前Elasticsearch最新的版本是 7.6.0 ,我这里使用的版本是 7.1.5 安装Elasticsearch前提条件: JDK1.8及以上 1.2 安装和配置 1.2.1 下载 下载地址: https://www.elastic.co/downloads/past-releases 1.2.2 安装 Elasticsearch无需安装,解压即用。 1.3 运行 进入 elasticsearch/bin 目录

Elasticsearch环境搭建和介绍(Windows)

a 夏天 提交于 2020-02-26 21:38:49
Elasticsearch环境搭建和介绍(Windows) 原创置顶 我要取一个响亮的昵称 最后发布于2018-11-05 21:19:03 阅读数 21920 收藏 分类专栏: Elasticsearch 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/chen_2890/article/details/83757022 收起 1 Elasticsearch介绍和安装 1.1 简介 1.1.1 Elastic Elastic官网:https://www.elastic.co/cn/ Elastic有一条完整的产品线:Elasticsearch、Kibana、Logstash等,前面说的三个就是大家常说的ELK技术栈。 1.1.2 Elasticsearch Elasticsearch官网:https://www.elastic.co/cn/products/elasticsearch 如上所述,Elasticsearch具备以下特点: 分布式,无需人工搭建集群(solr就需要人为配置,使用Zookeeper作为注册中心) Restful风格,一切API都遵循Rest原则,容易上手 近实时搜索,数据更新在Elasticsearch中几乎是完全同步的。 1.1.3 版本