Attention is all you need pytorch实现 源码解析02 - 模型的训练(1)- 模型的训练代码
我们今天继续分析著名的attention is all you need 论文的pytorch实现的源码解析。 由于项目很大,所以我们会分开几讲来进行讲解。 上一讲连接在此: Attention is all you need pytorch实现 源码解析01 - 数据预处理、词表的构建 - https://blog.csdn.net/weixin_42744102/article/details/87006081 先上github源码: https://github.com/Eathoublu/attention-is-all-you-need-pytorch 项目结构: -transfomer —__init__.py —Beam.py —Constants.py —Layers.py —Models.py —Module.py —Optim.py —SubLayers.py —Translator.py datasets.py preprocess.py train.py translate.py 今天是第二讲,我们讲一讲模型的训练。模型的训练我将会用两节来讲解,第一节讲的是模型总体的训练的代码(也就是这一节) train.py ,下一节我们讲一讲模型的构建以及结构, 也就是transformer目录下的Models.py 。 下面我们来看一下train.py的源码以及解析: