广告行业中那些趣事系列6:BERT线上化ALBERT优化原理及项目实践(附github)
摘要:BERT因为效果好和适用范围广两大优点,所以在NLP领域具有里程碑意义。实际项目中主要使用BERT来做文本分类任务,其实就是给文本打标签。因为原生态BERT预训练模型动辄几百兆甚至上千兆的大小,模型训练速度非常慢,对于BERT模型线上化非常不友好。本篇研究目前比较火的BERT最新派生产品ALBERT来完成BERT线上化服务。ALBERT使用参数减少技术来降低内存消耗从而最终达到提高BERT的训练速度,并且在主要基准测试中均名列前茅,可谓跑的快,还跑的好。希望对需要将BERT线上化感兴趣的小伙伴有些许帮助。 目录 01 项目背景介绍 02 从BERT到ALBERT 03 万里第一步:先跑通模型 04 多分类任务实践 总结 01 项目背景介绍 原生态BERT预训练模型动辄几百兆甚至上千兆的大小,训练速度非常慢,对于模型线上化非常不友好。为了实现BERT模型线上化问题,其实就是如何又快有好的训练模型,经调研目前超火的BERT最新派生产品ALBERT项目能很好的解决上述问题。 ALBERT是由论文《ALBERT: A Lite BERT For Self-Supervised Learningof Language Representations》提出来的。通常情况下增加预训练模型大小可以提升模型在下游任务中的性能,但是因为“GPU/TPU内存的限制