情感分析

情感分析

▼魔方 西西 提交于 2020-03-29 06:23:10
1.网络结构 2.数据源 数据集的训练集和测试集分别包含25000个已标注过的电影评论。其中,负面评论的得分小于等于4,正面评论的得分大于等于7,满分10分。 文章参考: https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/nlp_case/understand_sentiment/README.cn.html from __future__ import print_function import paddle import paddle.fluid as fluid import numpy as np import sys import math CLASS_DIM = 2 #情感分类的类别数 EMB_DIM = 128 #词向量的维度 HID_DIM = 512 #隐藏层的维度 STACKED_NUM = 3 #LSTM双向栈的层数 BATCH_SIZE = 128 #batch的大小 word_dict = paddle.dataset.imdb.word_dict() train_reader = paddle.batch( paddle.reader.shuffle( paddle.dataset.imdb.train(word_dict), buf_size=25000), batch

《少年的你》短评情感分析——机器学习之逻辑回归

青春壹個敷衍的年華 提交于 2020-03-16 09:46:18
背景 《少年的你》这部国产青春剧影响还是蛮大的,票房达到了14亿,从票房上看,这部电影在大陆制作的青春剧中比较成功,演员:易烊千玺+周冬雨,当然会引起一些流量效应,但是许多演员对这部电影的剧情、演员的演技评价颇好,包括自己的姐姐也非常喜欢;同时它也陷入了抄袭东野圭吾的《白夜行》和《嫌疑人X的献身》的热议,引起许多原著粉丝的不满。下面就利用逻辑回归(LogisticRegression)对《少年的你》的一些短评进行情感分析,看一看已经观影的人对这部电影的评价如何。 获取数据 数据是从豆瓣电影——《少年的你》短评上获取的 虽说图中显示的有220200条短评,我却只爬取到600条,但当一个小的数据集样本也是足够的 爬虫过程并不难,不再过多概述 处理数据 需要的库和工具 import pandas as pd import jieba import re 工具 : jupyter notebook 数据整理 数据读取如下图 数据内容:名字,短评,评价 由于爬取的短评内容分为500个样本和100个样本,所以需要先将两个数据集整合成一个数据集 利用 pandas 的 merge 方法即可 在 rating 这一列中,数据还是列表格式,可观性也比较差,很容易能推断出10-50分为五个等级,也就是我们在网页上看到的几星评价,为了分析便利,可以写一个函数将 rating 分为1-5五个等级 def

300万大奖:欢迎参加美团联合主办的全球AI挑战赛

倖福魔咒の 提交于 2020-03-13 05:55:42
2018年8月29日,由美团、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”正式启动。美团CTO罗道峰、创新工场CEO李开复、搜狗CEO王小川和美图CEO吴欣鸿共同启动了本次大赛,盛况空前。据悉,本次大赛整体奖金规模超过300万人民币。 想报名的同学,点 这里 ! 本次大赛共投入千万元规模以上的资金,建设了十余个全新高质量数据集,已成为目前国内规模最大的科研数据集平台和最大的非商业化竞赛平台。在2017年,有来自全球65个国家的8892支团队参加了大赛,覆盖国内外347所高校,273家企业,而今年这些记录有望被打破。 用AI挑战真实世界的问题 AI竞赛可以吸引和培养人才,展示最新思想和技术,打造良性可持续的AI科研与应用生态。2018年大赛的主题为“用AI挑战真实世界的问题”,共包括5个主赛道和5个实验赛道。美团主要负责了其中两个颇具挑战性的主赛道赛题:细粒度用户评论情感分析(题目来自美团基础研发平台AI平台部NLP中心)和无人驾驶视觉感知(题目来自美团大零售事业群无人配送部)。 美团两个赛道的奖项设置均为: 以下提及金额为税前金额,详细规则请参考《 竞赛选手报名协议 》 总决赛 冠军:400,000人民币,颁发获奖证书;辅导教师奖10,000人民币 亚军:40,000人民币,颁发获奖证书;辅导教师奖2,000人民币 季军:20,000人民币

paper:情感分析

那年仲夏 提交于 2020-02-28 14:51:20
A Hierarchical Model of Reviews for Aspect-based Sentiment Analysis 0. Summary 提出hierarchical bidirectional long short-term memory(H-LSTM)模型,综合评论的句子内部信息特征、句子间信息特征、句子的实体属性特征(eg.FOOD#QUALITY),进行情感分析。最终证明本文提出模型 具有更好的效果 且 不需要文本以外信息 的结论。 Motivation 每个评论(review)中包含多个句子(sentence),除了各句子内部的信息以外,句子与句子间的相关性对于情感分析也是十分重要的,故而本文同时获取句子级别信息(sentence-level)和评论级别信息(review-level)。 Method(s) hierarchical bidirectional long short-term memory(H-LSTM) Experiment 每个评论数据padding到 h 个句子,其中每个句子padding到 l 个单词。 句子如果有2个实体,则该句子匹配不同实体使用2次;如果该句子没有实体,则不使用该句子,依次类推。 分别使用随机&预训练embedding。 损失函数:cross-entropy;优化器:Adam。 Conclusion 与CNN

深度学习之情感分析的概念及其应用

风格不统一 提交于 2020-01-25 13:58:23
作者 | CDA数据分析师 情感分析是文本的语义挖掘,可识别和提取原始文本材料中的主观信息,并帮助企业在监控在线对话的同时了解其品牌,产品或服务的社会情绪。但是,对社交媒体流的分析通常仅限于基本的情绪分析和基于计数的指标。这就好比仅仅是在表面划过,而错过了那些等待被发现的高价值见解。那么,一个品牌应该怎么做才能抓住那些容易获得的,同时价值比较高的见解呢? 随着深度学习的发展,算法分析文本的能力已经有了很大的提高。创造性地运用先进的人工智能技术是进行深入研究的有效工具。我们相信,根据以下内容对客户关于品牌的讨论进行分类非常重要: 客户关注的品牌产品和服务的关键方面。 用户对这些方面的潜在意图和反应。 这些基本概念在结合使用时,就成为一个非常重要的工具,可以准确地分析数百万次品牌讨论信息。在帖子中,我们以Uber为例,演示其工作原理。请继续阅读! 文本分类器-基本构建块 情绪分析 情绪分析是最常见的文本分类工具,它可以分析传入的消息并判断潜在的情绪是正面的,还是负面的,还是中立的。您可以在此处输入一个您选择的句子,并通过演示来判断潜在的情绪。 意图分析 意图分析通过分析消息背后的用户意图,并确定其是否涉及意见,新闻,营销,投诉,建议,欣赏或查询,从而来提升客户服务的质量。 上下文语义搜索(CSS) 现在事情变得很有趣了。想要获得可行的结论见解,了解用户在讨论品牌的哪个方面是很重要的

情感分析

一曲冷凌霜 提交于 2019-12-10 09:10:34
情感分析 自然语言处理(NLP) 将自然语言(文本)转化为计算机程序更容易理解的形式 预处理得到的字符串 -> 向量化 经典应用 情感分析 文本相似度 文本分类 简单的情感分析 情感字典(sentiment dictionary) 人工构造一个字典,如:like -> 1, good -> 2, bad -> -1, terrible-> -2 根据关键词匹配 如 AFINN-111: http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010,虽简单粗暴,但很实用 问题: 遇到新词,特殊词等,扩展性较差 使用机器学习模型,nltk.classify 来源: CSDN 作者: qq_2353304647 链接: https://blog.csdn.net/qq_39888135/article/details/103455633

《一种用于基于方面情感分析的深度分层网络模型》论文阅读笔记

余生长醉 提交于 2019-12-10 00:45:12
结合区域卷积神经网络和分层LSTM网络的深度分层模型来解决基于特定方面的情感极性分析问题,挖掘特定方面在整个评论的长距离依赖关系。通过词语层和句子层的分层注意力机制,更加有效的识别出句子中不同方面的情感极性 一个待分类句子在网络中的训练框架主要由以下三部分组成: (1) 区域CNN , 按目标词分割成固定长度的不同区域,一个区域对应一个区域CNN 提取不同区域的局部特征信息 (2)词语层LSTM 特定方面的向量和隐藏层输出结合作为词语层LSTM网络的序列化输入 (3)句子层LSTM 区域CNN和词语层LSTM网络的输出结合作为句子层LSTM的输入 来源: CSDN 作者: TtingZh 链接: https://blog.csdn.net/t_zht/article/details/103461013

在Keras中用Bert进行情感分析

纵饮孤独 提交于 2019-12-04 00:34:37
之前在 BERT实战——基于Keras 一文中介绍了两个库 keras_bert 和 bert4keras,但是由于 bert4keras 处于开发阶段,有些函数名称和位置等等发生了变化,那篇文章只用了 bert4keras 进行情感分析,新开了一篇文章将 2 个库都用一遍, bert4keras 也使用最新版本。害怕 bert4keras 后续继续变化,需要稳定的可以先采用 keras_bert 。 数据集: https://github.com/bojone/bert4keras/tree/master/examples/datasets 1.使用keras_bert 配置一些超参数,导入需要的包和设置文件路径 import json import numpy as np import pandas as pdfrom keras_bert import load_trained_model_from_checkpoint, Tokenizer# 超参数 maxlen = 100 batch_size = 16 droup_out_rate = 0.5 learning_rate = 1e-5 epochs = 15 path_prefix = "./test" # 预训练模型目录 config_path = path_prefix + "/chinese_L-12_H-768

aspect_level情感分析(持续更新)

僤鯓⒐⒋嵵緔 提交于 2019-12-03 04:31:54
第一编代码 import os #print(os.getcwd()) np.random.seed( 7 ) #对随机数生成器选定随机数种子,以确保每次执行代码时结果都是相同的 # define the raw dataset def load_cor (fname,content=[],target=[],rating=[]) : with open( r'C:\Users\lujinyu\PycharmProjects\Attion\data\%s.cor' % fname) as f: sentences = f.readlines() print(f.name) print(len(sentences) / 3 ) for i in range(int(len(sentences) / 3 )): content.append(sentences[i * 3 ].strip()) target.append(sentences[i * 3 + 1 ].strip()) rating.append(sentences[i * 3 + 2 ].strip()) df=pd.DataFrame([content,target,rating], index=[ 'content' , 'target' , 'rating' ]) df= df.T #行列转置。 return df