Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记
论文地址 https://ieeexplore.ieee.org/document/9005467/
摘要
在这项研究中,我们研究了从文本中提取人格特质的可能性。我们通过让专家在来自多个在线来源的大量文本中注释个性特征来创建了一个大数据集。从这些带注释的文本中,我们选择了一个样本,并进行了进一步的注释,得到了两个数据集 (一个是大型低可靠性的数据集, 另一个是小型高可靠性的数据集)。然后我们使用这两个数据集来训练和测试几种机器学习模型,以从文本中提取个性。最后,我们对来自不同领域的野生数据集进行了评估。我们的结果表明,基于小型高可靠性数据集的模型比基于大型低可靠性数据集的模型表现更好。而且基于小型高可靠性数据集的语言模型的性能要优于随机Baseline方法。最后,结果表明,在野生数据集测试时,我们最好的模型的性能没有比随机基准更好。我们的结果表明,从文本中确定人格特征仍然是一个挑战,并且在野生数据集测试之前无法对模型性能做出明确的结论。
1. 介绍
THE BIG FIVE 模型, 把人的个性分为5种类型:
开放性(openness):具有想象、审美、情感丰富、求异、创造、智能等特质。
责任心(conscientiousness):显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。
外倾性(extroversion):表现出热情、社交、果断、活跃、冒险、乐观等特质。
宜人性(agreeableness):具有信任、利他、直率、依从、谦虚、移情等特质。
神经质性(neuroticism):难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质,即不具有保持情绪稳定的能力
在前几年心理学专家和计算机专家联合在一起用于从一些社交媒体的活动来探究个性,但是随着Facebook剑桥分析丑闻, 使得种方式的研究遭到了怀疑,于是更多的研究倾向于从不同的一些资源中得到文本来提取个性。
近几年这些工作得到了一些进展,可以从相关工作中看到,但是我们发现我们对于训练好的模型,在一些野外的数据集上进行测试的时候,效果其实是非常有限的。
这篇文章旨在去讨论三个问题
- 创造一个模型,它能够有效的提取人格特点
- 探究 那些大数据集,但是质量不高和数据集小,但是质量很高的数据集上进行训练出来的模型的效果进行比较
- 评估以上两个数据集上训练出来的模型 对于其他数据集表现,
2. 相关工作
2.1 回归方法
-
myPersonality 数据集
M. Kosinski 使用 组合逻辑回归和线性回归来对此数据集上的个性进行训练,最好的结果是58.83%,
-
Bayesian MultinomialRegression model
S. Argamon, 使用贝叶斯多项回归,对一个长文本的数据集进行特征提取,得到65.7的准确率了
-
微博数据集
使用多种回归方法,对微博的444个用户的数据进行特征提取,使用的是MAPE进行评估。
2.2 深度神经网络
- Kalghatgi 使用神经网络来分析推特用户的文本信息, 来预测其性格特点。
- Pennebaker 使用深度神经网络来对2469篇文章样本,将进行分析,并且预测其发布者的性格,文章过滤的所有句子词数为空的句子,并且分类标准是一个二分类问题
- T. Tandera, Hendro,等人,使用深度神经网络,对两个数据集进行训练, 一个是myPersonality 的250个Facebook用户发布的10000个文本, 另一个则是使用ApplyMagicSauce 工具来分析150个Facebook用户文本数据集。
3. 模型训练
使用了 SVR 和 LM 来当做分类器, 进行特征提取, 用爬虫来收集数据,然后用学生来对数据进行标注,最后使用SVR和 LM 预训练模型来进行预测, 其中 预训练模型是使用了ULMFiT , 结果使用MAE, MSE来进行预测
其优点有
- 用于实现像CV领域的迁移学习,并可以用于任意NLP任务。
- 提出了一些训练的策略,比如discriminative fine-tuning、slanted triangular learning rates、gradual unfreezing等。
- 在6个文本分类的任务上表现不俗,甚至提升了18~24%。
- 可以用少量样本训练。
- 有充足的源码、预训练模型等
其具体细节可以参考https://blog.csdn.net/Magical_Bubble/article/details/89493430
测试集的结果显示:使用与训练模型的表现会更好
4. 野生数据集上的个性探测
我们把训练好的模型放到野生数据集上进行训练,我们发现在小但可靠的数据集上的准确率要更大。
5. 结论
- 将少量高质量的训练数据训练出的模型性能优于基于大量单独注释数据的模型
- 该模型无法可靠地从文本中提取人们的个性
6. 心得
- 给出了如何去创建一个数据集, 其中的随机选择和数据爬取很有借鉴意义
- 启示我们数据集还是很重要的, 宁愿高质量,不用低质量。 不过BERT模型就是从大量语料中训练出来的预训练模型,质量的话也不算太高, 但是BERT效果很好, 所以这一点还需要考虑一下
- 总体来说并不是非常的有较为新的方法
来源:oschina
链接:https://my.oschina.net/u/4359017/blog/4296700