用Siamese和Dual BERT来做多源文本分类
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Marco Cerliani 编译:ronghuaiyang 正文共:2062 字 10 图 预计阅读时间:6 分钟 导读 使用不同的方式来使用BERT模型 。 在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为 transformers 的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。 作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。 我们使用了siamese结构,这是一个双路BERT ,用于多文本输入的分类。 数据 我们从Kaggle上收集数据集。新闻类别数据集:https://www.kaggle.com/rmisra/news-category-dataset包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介。我们总共有40多种不同类型的新闻。为了简单起见