sentiment

Keras情感分析(Sentiment Analysis)实战---自然语言处理技术

笑着哭i 提交于 2020-10-02 06:12:14
情感分析(Sentiment Analysis)是自然语言处理里面比较高阶的任务之一。仔细思考一下,这个任务的究极目标其实是想让计算机理解人类的情感世界。我们自己都不一定能完全控制和了解自己的情感,更别说机器了。 不过在人工智能的 认知智能 阶段(人工智能三阶段——计算智能,感知智能,认知智能),商家还是可以用它来做一些商品或服务的评论分析,继而有效地去优化商品或服务,为消费者们提供更好用户体验。 情感分析任务简介 情感分析任务其实是个 分类任务 ,给模型输入一句话,让它判断这句话的情感是积极的,消极的,还是中性的。例子如下: 输入:的确是专业,用心做,出品方面都给好评。 输出:2 输出可以是[0,1,2]其中一个,0表示情感消极,1表示情感中性,2表示情感积极。 情感分析这个任务还有一个升级版—— 细腻度的情感分析 。升级版希望模型不仅能识别出情感的好坏,而且还希望模型能识别出是由于什么原因导致这种情感发生。举个例子,"这家餐厅的地理位置不错,可惜菜不怎么好吃",我们就需要识别出,在地理位置这个aspect上情感是积极的,而在菜的味道这个aspect上情感是消极的。听起来是不是很难,所以实战部分我只简单介绍一下麻瓜版的情感分析任务——简单的分类。 情感分析算法简介 分类任务的算法,想必大家都很熟悉:SVM,Logistic,Tree等。可是对于文本分类来说

区别于传统低效标注,两种基于自然语言解释的数据增强方法

本秂侑毒 提交于 2020-10-01 23:16:45
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 秦禹嘉,清华大学电子工程系本科生,大二开始在清华大学自然语言处理实验室学习。导师刘知远副教授。主要研究方向为义原知识体系的完善与应用。 尽管深度学习模型已经在许多自然语言处理任务上取得了非常好的效果,它们通常依赖于大量的训练数据;然而在实际应用场景下,标注能力、训练数据并不充足的情况经常出现,因此如何让标注者高效率地标注是一个十分有意义的问题。 传统给出标签的标注方式在一定程度上限制了标注者能够提供的信息量,很多情况下我们不仅关注标注者打出的标签,更加关注于其打出该标签的理由。因此一种更加高效的做法是让标注者在给出标签的同时给出相应的自然语言解释来解释其做出该决定的原因。 本文将分享应用自然语言解释的一些挑战,并介绍目前应对这些挑战做出的探索和最新工作。 自然语言解释的概念与背景 如开篇所讲,深度学习的技术已经在许多自然语言处理的任务上取得了很好的效果,但是仍然还有两个问题没有解决。第一个是模型通常需要大量的数据。第二个是模型缺乏可解释性。 先看 data hungry 的问题,很多情况下我们并没有那么多的数据能够喂给模型

tsv csv txt json格式文件处理方法

亡梦爱人 提交于 2020-10-01 10:48:09
对于tsv、csv、txt以及json类型的数据的处理方法一般可以使用torchtext中的TabularDataset进行处理; 数据的要求: tsv: 第一行fields字段名,使用tab隔开,其它行为数据,每个字段直接的数据使用tab隔开; csv: 第一行fields字段,其它行为数据 json: 字典类型,每一行为一个字典,字典的key为fields,values为数据。 本次采用以下tsv格式的数据集: sentiment-analysis-on-movie-reviews.zip 数据集的格式: 注意:如果test数据集中缺少某些字段,使用torchtext处理时会有问题,因此要保证train val和test数据集要处理的字段必需相同。 方法一: torchtext 任务:构造一个翻译类型的数据集 inputs:[sequence english] target:[sequence chinese] from torchtext.data import Field, TabularDataset, BucketIterator import torch batch_size = 6 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') tokenize_x = lambda x:

基于情感词典的python情感分析

心不动则不痛 提交于 2020-08-17 03:52:50
近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。 1、情感分析含义 情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰)、态度的范围分析(包含每句话,某一段、或者全文)。因此,情感分析的目的可以分为: 初级 :文章的整体感情是积极/消极的; 进阶 :对文章的态度从1-5打分; 高级 :检测态度的目标,持有者和类型。 总的来说, 情感分析就是对文本信息进行情感倾向挖掘 。 2、情感挖掘方法 情感挖掘目前主要使用的方法是使用情感词典,对文本进行情感词匹配,汇总情感词进行评分,最后得到文本的情感倾向。本次我主要使用了两种方法进行情感分析。第一种:基于BosonNLP情感词典

基于情感词典的python情感分析

南楼画角 提交于 2020-08-12 03:41:39
近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。 1、情感分析含义 情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰)、态度的范围分析(包含每句话,某一段、或者全文)。因此,情感分析的目的可以分为: 初级 :文章的整体感情是积极/消极的; 进阶 :对文章的态度从1-5打分; 高级 :检测态度的目标,持有者和类型。 总的来说, 情感分析就是对文本信息进行情感倾向挖掘 。 2、情感挖掘方法 情感挖掘目前主要使用的方法是使用情感词典,对文本进行情感词匹配,汇总情感词进行评分,最后得到文本的情感倾向。本次我主要使用了两种方法进行情感分析。第一种:基于BosonNLP情感词典

[Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算

风流意气都作罢 提交于 2020-08-10 12:25:34
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。这篇文章将详细讲解通过自定义情感词典(大连理工词典)实现情感分析和情绪分类的过程,并与SnowNLP进行对比,为后续深度学习和自然语言处理(情感分析、实体识别、实体对齐、知识图谱构建、文本挖掘)结合做基础,希望对您有所帮助~ 本专栏主要结合作者之前的博客、AI经验和相关视频及论文介绍,后面随着深入会讲解更多的Python人工智能案例及应用。基础性文章,希望对您有所帮助,如果文章中存在错误或不足之处,还请海涵~作者作为人工智能的菜鸟,希望大家能与我在这一笔一划的博客中成长起来。写了这么多年博客,尝试第一个付费专栏,但更多博客尤其基础性文章,还是会继续免费分享,但该专栏也会用心撰写,望对得起读者,共勉! TF下载地址: https://github.com/eastmountyxz/AI-for-TensorFlow Keras下载地址: https://github.com/eastmountyxz/AI-for-Keras 情感分析地址: https://github.com/eastmountyxz/Sentiment-Analysis PS:本文参考了作者YX学生的学习思路

cs224u 自然语言推断:模型-2

╄→尐↘猪︶ㄣ 提交于 2020-08-06 08:50:40
cs224u 自然语言推断:模型-2 nli_02_models.ipynb __author__ = "Christopher Potts" __version__ = "CS224u, Stanford, Spring 2020" 目录 模型包装器 评估 模型包装器 这次的实验和Stanford Sentiment Treebank中使用的框架相同,使用sst.fit_classifier_with_crossvalidation,以LogisticRegression为超参数的交叉验证构建一个包装器,不确定什么参数将有利于NLI数据集,这个超参数查询是至关重要的。 def fit_softmax_with_crossvalidation ( X , y ) : 来源: oschina 链接: https://my.oschina.net/u/4259809/blog/4473345

文本情感分析(一):基于词袋模型(VSM、LSA、n-gram)的文本表示

醉酒当歌 提交于 2020-08-05 17:10:20
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会有四篇文章。这篇文章整理文本特征工程的内容。 文本的特征工程主要包括数据清洗、特征构造、降维和特征选择等。 首先是数据清洗,比如去停用词、去非字母汉字的特殊字符、大写转小写、去掉html标签等。 然后是特征构建,可以基于词袋模型构造文本特征,比如向量空间模型的词频矩阵、Tf-Idf矩阵,又比如LSA和LDA,也可以用word2vec、glove等文本分布式表示方法,来构造文本特征。此外还可以用n-gram构造文本特征。 接下来可以选择是否降维,可以用PCA或SVD等方法对文本特征矩阵进行降维。 最后选择效果比较突出的1个或几个特征来训练模型。 一、基于向量空间模型的文本特征表示 向量空间模型(Vector Space Model,VSM)也就是单词向量空间模型,区别于LSA、PLSA、LDA这些话题向量空间模型,但是单词向量空间模型和话题向量空间模型都属于词袋模型,又和word2vec等文本分布式表示方法相区别。 向量空间模型的基本想法是:给定一个文本,用一个向量表示该文本的语义

cs224u Supervised sentiment: hand-built feature functions

跟風遠走 提交于 2020-05-09 08:59:10
cs224u Supervised sentiment: hand-built feature functions 监督情感:手工构建特征函数 概述 •本文的重点是构建用于线性分类器的特征表示 。 •我们将在这里构建的功能的核心特性: ◾在非常大、非常稀疏的特征空间中表示。 ◾利用领域的专家人类知识,可以高度细化各个特征函数。 ◾这些表示并不全面地表示输入示例,只是分类器模型可以很好地利用输入数据。 •这些分类器往往具有很强的竞争力。我们以后将看到更强大的深度学习模型,会发现很难让它们达到基于稀疏特征表示构建的分类器。 导入库 from collections import Counter import os from sklearn.linear_model import LogisticRegression import scipy.stats from np_sgd_classifier import BasicSGDClassifier import torch.nn as nn from torch_shallow_neural_classifier import TorchShallowNeuralClassifier import sst import utils from tensorflow import set_random_seed utils.fix

常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper

浪尽此生 提交于 2020-05-08 14:30:47
任务 描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks Common sense reasoning 常识推理 Event2Mind cross-entropy 4.22 Event2Mind: Commonsense Inference on Events, Intents, and Reactions Parsing 句法分析 Penn Treebank F1 95.13 Constituency Parsing with a Self-Attentive Encoder Coreference resolution 指代消解 CoNLL 2012 average F1 73 Higher-order Coreference Resolution with Coarse-to-fine Inference Dependency parsing 依存句法分析 Penn Treebank POS UAS LAS 97.3 95.44 93.76 Deep Biaffine Attention for Neural Dependency