在深度学习的帮助下,文本分类在过去几年中取得了许多重大的进步。并且已经提出了几种新颖的思想(例如 neural embedding,注意力机制,self attention,Transformer,BERT 和 XLNet),这些思想在过去十年中取得了飞速发展。尽管取得了不错的进展,但仍然有许多挑战需要解决。本文介绍了其中一些挑战,并讨论我们认为将有助于推动该领域发展的研究方向。
更具挑战性的新数据集
尽管近年来已经公布了许多用于 常见文本分类任务 的大规模数据集,但是仍然需要 更具挑战性的新数据集,例如具有 多步推理的QA(QA with multi-step reasoning) 和 针对多语言文档(multi-lingual documents) 的文本分类。推出满足这些挑战性任务的 大规模标记数据集, 有助于推动这些领域的研究。
为常识建模
将 常识 整合到深度学习模型中,一定程度上能够提高 模型性能 和 泛化能力,这样的模式和人类 利用常识执行不同任务 的方式相同。例如,配备常识性知识库的问答系统 可以回答有关现实世界的问题。
常识 还有助于解决信息不完整情况下的问题。利用广泛存在的 常见对象或概念 的知识,人工智能系统可以像人们那样 对未知事物 基于“默认”假设 进行推理。尽管已经有工作利用该思想进行了情感分类研究,但仍需要进行更多研究以 探索如何在神经模型中有效地建模和使用常识。
可解释的深度学习模型
尽管深度学习模型在具有挑战性的基准上取得了令人鼓舞的性能,但大多数模型都是无法解释的,仍然存在许多悬而未决的问题。
例如:
为什么一个模型在一个数据集上的表现优于另一种模型,而在其他数据集上却表现不佳? 深度学习模型到底学到了什么? 能在给定的数据集上达到一定精度的最小神经网络架构是什么?
尽管 注意力和自我注意力机制 为回答这些问题提供了一个新角度,但仍缺乏对这些模型的基本行为和动力学的详细研究。更好地理解这些模型的理论方面 可以帮助开发针对各种文本分析场景的更优的模型。
更高效的模型
现在大多数的神经语言模型都 需要大量的资源(内存、显存、算力) 来进行训练和推理。这些大模型必须简化和压缩,才能满足移动设备那 计算和存储 的约束。我们可以通过使用知识蒸馏构建 学生模型 或通过使用 模型压缩技术 来完成。开发与任务无关的模型简化方法是一个活跃的研究主题。
Few-Shot / Zero-Shot Learning
大多数深度学习模型是需要 大量域标签 的监督模型。实际上,为每个新域收集此类标签成本非常高。与从头训练模型相比,对诸如BERT和OpenGPT之类的预训练语言模型(PLM)进行微调所需要的域标签要少得多,从而为开发 新的 基于预训练模型的 zero-shot/few-shot learning 提供了新的角度。
参考文献
-
Deep Learning Based Text Classification: A Comprehensive Review -
Senticnet 4: A semantic resource for sentiment analysis based on conceptual primitives -
Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
本文分享自微信公众号 - 图网络与机器学习(Graph-AI)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/2722645/blog/4426973