也来玩玩目前最大的中文GPT2模型(bert4keras)
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 相信不少读者这几天都看到了清华大学与智源人工智能研究院一起搞的“清源计划”(相关链接 《中文版GPT-3来了?智源研究院发布清源 CPM —— 以中文为核心的大规模预训练模型》 ),里边开源了目前最大的中文 GPT2 模型 CPM-LM(26 亿参数),据说未来还会开源 200 亿甚至 1000 亿参数的模型,要打造“中文界的 GPT3”。 ▲ 官方给出的CPM-LM的Few Shot效果演示图 我们知道,GPT3 不需要 finetune 就可以实现 Few Shot,而目前 CPM-LM 的演示例子中,Few Shot 的效果也是相当不错的,让人跃跃欲试,笔者也不例外。既然要尝试,肯定要将它适配到自己的 bert4keras 中才顺手,于是适配工作便开始了。本以为这是一件很轻松的事情,谁知道踩坑踩了快 3 天才把它搞好,在此把踩坑与测试的过程稍微记录一下。 模型介绍 该计划发布的第一个模型称为 CPM-LM,参数大约为 26 亿,预训练中文数据规模 100GB,是一个单向的语言模型,其他细节大家自行到下面的链接阅读就好。这么大的参数量,一般我们都是直接使用而不考虑去 finetune 它的了,它所具备的能力就是无条件地随机生成文本,当然我们也可以实现给它一些引导,然后用它来实现文本续写