step by step带你HAN文本分类
3 月,跳不动了?>>> 本文参考原文- http://bjbsair.com/2020-03-25/tech-info/6302/ 今天来看看网红Attention的效果,来自ACL的论文Hierarchical Attention Networks for Document Classification **论文概述 ** 近年来,在NLP领域,好像最流行的就是RNN、LSTM、GRU、Attention等及其变体的组合框架。这篇论文里作者就对文本的结构进行分析,使用了双向GRU的结构,并且对Attention进行调整:考虑了word层面的attention和sentence层面的attention,分别对单词在句子中和句子在文档中的重要性进行了建模。仔细一想确实是挺合理的,一篇文档就是由无数句子构成的,而一个句子又是由无数单词构成的,充分考虑了文档的内部结构。 上图就是论文中文本分类模型的整体框架,可以看出主要分为四个部分: word encoder (BiGRU layer) word attention (Attention layer) sentence encoder (BiGRU layer) sentence attention (Attention layer) 首先回顾一下GRU的原理: GRU是RNN的一个变种,使用门机制来记录当前序列的状态