【R语言学习笔记】4. 文本挖掘之情感分析
1. 目的:通过分析和挖掘推特上的推文,来尽可能准确的判断其对苹果公司的态度(积极、消极、或者为其他)。 2. 数据来源: Twitter API;构建因变量方法:Amazon Mechanical Turk;自变量为推文内容。 Amazon Mechanical Turk: 亚马逊Mechanical Turk是一个众包市场,使个人或企业能够使用人工智能来执行计算机当前无法执行的任务。作为全球最大的众包市场之一,Mechanical Turk提供按需、可扩展的员工队伍,将创业公司、企业、研究人员、艺术家、知名科技公司和政府机构与个人联系起来,以解决计算机视觉、机器学习、自然语言处理等方面的问题。 tweets <- read.csv("tweets.csv", stringsAsFactors=FALSE) View(tweets) str(tweets) # 查看数据结构 创建因变量 tweets$Negative = as.factor(tweets$Avg <= -1) table(tweets$Negative) 3. 数据预处理:词袋模型(bag of words) 创建语料库 corpus <- VCorpus(VectorSource(tweets$Tweet)) # VCorpus() creates volatile corpora. #