【挑战】文本分类的挑战与机遇
在深度学习的帮助下,文本分类在过去几年中取得了许多重大的进步。并且已经提出了几种新颖的思想(例如 neural embedding,注意力机制,self attention,Transformer,BERT 和 XLNet),这些思想在过去十年中取得了飞速发展。尽管取得了不错的进展,但仍然有许多挑战需要解决。本文介绍了其中一些挑战,并讨论我们认为将有助于推动该领域发展的研究方向。 更具挑战性的新数据集 尽管近年来已经公布了许多用于 常见文本分类任务 的大规模数据集,但是仍然需要 更具挑战性的新数据集,例如具有 多步推理的QA(QA with multi-step reasoning) 和 针对多语言文档(multi-lingual documents) 的文本分类。推出满足这些挑战性任务的 大规模标记数据集, 有助于推动这些领域的研究。 为常识建模 将 常识 整合到深度学习模型中,一定程度上能够提高 模型性能 和 泛化能力,这样的模式和人类 利用常识执行不同任务 的方式相同。例如,配备常识性知识库的问答系统 可以回答有关现实世界的问题。 常识 还有助于解决信息不完整情况下的问题。利用广泛存在的 常见对象或概念 的知识,人工智能系统可以像人们那样 对未知事物 基于“默认”假设 进行推理。尽管已经有工作利用该思想进行了情感分类研究,但仍需要进行更多研究以