BERT

赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

霸气de小男生 提交于 2020-11-28 13:51:12
作者 | Ken Gu 翻译| 火火酱~,责编 | 晋兆雨 出品 | AI科技大本营 头图 | 付费下载于视觉中国 *文末有赠书福利 不可否认,Transformer-based模型彻底改变了处理非结构化文本数据的游戏规则。截至2020年9月,在通用语言理解评估(General Language Understanding Evaluation,GLUE)基准测试中表现最好的模型全部都是BERT transformer-based 模型。如今,我们常常会遇到这样的情形:我们手中有了表格特征信息和非结构化文本数据,然后发现,如果将这些表格数据应用到模型中的话,可以进一步提高模型性能。因此,我们就着手构建了一个工具包,以方便后来的人可以轻松实现同样的操作。 在Transformer的基础之上进行构建 使用transformer的主要好处是,它可以学习文本之间的长期依赖关系,并且可以并行地进行训练(与sequence to sequence模型相反),这意味着它可以在大量数据上进行预训练。 鉴于这些优点,BERT现在成为了许多实际应用程序中的主流模型。同样,借助HuggingFace Transformer之类的库,可以轻松地在常见NLP问题上构建高性能的transformer模型。 目前,使用非结构化文本数据的transformer模型已经为大众所熟知了。然而,在现实生活中

也来玩玩目前最大的中文GPT2模型(bert4keras)

断了今生、忘了曾经 提交于 2020-11-27 20:50:27
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 相信不少读者这几天都看到了清华大学与智源人工智能研究院一起搞的“清源计划”(相关链接 《中文版GPT-3来了?智源研究院发布清源 CPM —— 以中文为核心的大规模预训练模型》 ),里边开源了目前最大的中文 GPT2 模型 CPM-LM(26 亿参数),据说未来还会开源 200 亿甚至 1000 亿参数的模型,要打造“中文界的 GPT3”。 ▲ 官方给出的CPM-LM的Few Shot效果演示图 我们知道,GPT3 不需要 finetune 就可以实现 Few Shot,而目前 CPM-LM 的演示例子中,Few Shot 的效果也是相当不错的,让人跃跃欲试,笔者也不例外。既然要尝试,肯定要将它适配到自己的 bert4keras 中才顺手,于是适配工作便开始了。本以为这是一件很轻松的事情,谁知道踩坑踩了快 3 天才把它搞好,在此把踩坑与测试的过程稍微记录一下。 模型介绍 该计划发布的第一个模型称为 CPM-LM,参数大约为 26 亿,预训练中文数据规模 100GB,是一个单向的语言模型,其他细节大家自行到下面的链接阅读就好。这么大的参数量,一般我们都是直接使用而不考虑去 finetune 它的了,它所具备的能力就是无条件地随机生成文本,当然我们也可以实现给它一些引导,然后用它来实现文本续写

一文速览EMNLP 2020中的Transformer量化论文

怎甘沉沦 提交于 2020-11-27 09:02:37
花了几天看了三篇EMNLP 2020中关于Transformer模型量化的相关论文,快速记一下要点。 Fully Quantized Transformer for Machine Translation 这篇是华为诺亚方舟实验室和蒙特利尔大学合作的,发表在findings上面。 「论文地址:」 https://www. aclweb.org/anthology/20 20.findings-emnlp.1.pdf 方法 针对Transformer结构的计算密集型算子进行了activation量化,除了bias以外的所有weight进行了量化,这一点其实我们组也都做过了。 采用的是量化感知训练(QAT),反向传播采用的是straight-through estimator。 考虑到每个channel的分布有差异,因此针对每个channel单独学习量化的scale参数。 零值的处理:padding无需考虑,反正会被mask掉。ReLU和attention softmax之后的量化强制定义量化下界为0。量化全部加在dropout之前。 剪枝采用结构化剪枝,因为稀疏性剪枝需要硬件或库支持,比较麻烦。这里只对FFN参数进行剪枝,而且不是采用传统的百分比阈值,而是根据ReLU之后值计算出第一层FFN输出的每一列的max值,根据max值是否超过一定阈值来剪枝

算法岗面试整理 | 腾讯、字节、美团、阿里

旧街凉风 提交于 2020-11-26 15:05:08
作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系小编处理。 面试锦囊之面经分享系列,持续更新中 欢迎后台回复" 面试 "加入讨论组交流噢 文 末 也有内推,需要的同学自取哈 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?)

算法岗面试整理 | 腾讯、字节、美团、阿里

南楼画角 提交于 2020-11-26 14:46:54
(给 机器学习算法与Python实战 加星标,提升AI技能) 文末赠书福利 作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?) 一面 一个很年轻的小哥哥,人也很好

热门的模型跨界,Transformer、GPT做CV任务一文大盘点

那年仲夏 提交于 2020-11-26 13:45:09
作者|陈萍 来源|机器之心 可能大家心里都有一种错误认知,做自然语言处理任务的模型不能够用来进行计算机视觉任务。其实不然,现阶段已出现好多研究,它们通过算法的改进,将在 NLP 领域表现良好的模型,如 Transformer、GPT 等进行改进并应用于视觉任务,不仅实现了模型跨界,而且取得了不错的性能。 模型跨界效果如何呢? 人工智能的快速发展已经淋漓尽致地体现在我们的日常生活中,从人脸识别、语音识别到机器翻译等等,无不展示着 AI 带来的便利。已经落地的产品层出不穷,其后的算法模型你又了解多少呢?有些模型不仅在自己的领域表现出色,更能跨界出圈。 近几年,NLP 领域的算法势如破竹,不断取得新突破,CV 领域同样不断取得创新。新工具、新算法、新算力等不断迭代更新,在各自领域大放异彩。 如果说将 NLP 领域的模型应用到 CV 领域,或反之,那效果该如何呢?模型跨界是否可行? 答案是肯定的。下面我们来盘点一下模型的跨界、破界表现如何?本文介绍的内容包括: 《End-to-End Object Detection with Transformers》:Facebook 将 Transformer 应用于目标检测任务; 《Generative Pretraining from Pixels》:OpenAI 用 GPT-2 做图像分类的尝试; 《LAMBDANETWORKS:

Perturbed Masking:和参数无关的预训练模型分析方法

寵の児 提交于 2020-11-24 14:40:59
©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|问答系统 论文标题: Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT 论文来源: ACL 2020 论文链接: https://arxiv.org/abs/2004.14786 代码链接: https://github.com/Frank-Smith/Perturbed-Masking 引言 本文是一篇分析 BERT 模型的文章。通常分析 BERT 的时候研究人员会设计一些 probing 任务,并通过 BERT 的每一层参数来尝试解决这些任务,如果某一层能够很好的解决某一任务,那就说明 BERT 在这一层是学到了和该任务相关的语言学信息的。 probing 任务通常被设计为一个简单的神经网络(比如分类任务通常在 BERT 后接一层的 FFN),但是这种做法有个问题:我们无法确定到底是 BERT 本身,还是添加的简单神经网络学到了这些相关的信息,该做法反而增加了模型可解释的难度。 论文贡献 作者提出了一种和参数无关的分析预训练模型的方法: Perturbed Masking , 该方法能够分析预训练模型中词与词之间的关系,使全局的句法信息提取成为可能。 作者在多个 NLP

聚焦快速机器学习训练算法,UC伯克利尤洋189页博士论文公布

雨燕双飞 提交于 2020-11-24 06:36:33
点击上方“ 迈微电子研发社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 这份 189 页的博士学位论文,凝结了尤洋在快速机器学习训练算法领域的研究心血。 过去十年,深度学习应用领域的数据量迅速增长,使得深度神经网络(DNN)的训练时间拉长。而这已经成为机器学习开发者和研究者面临的瓶颈问题。例如,在 8 个 P100 GPU 上完成 90 个 epoch 的 ImageNet/ResNet-50 训练需要 29 个小时,在 16 个 v3 TPU 芯片上完成 BERT 预训练需要 81 个小时。 因此,如何有效缩短机器学习训练时间,同时完成高质量的训练,对于解决当前的瓶颈问题具有重大意义。 本文将介绍一篇长达 189 页的博士学位论文,作者为加州大学伯克利分校计算机系的尤洋博士。 尤洋的主要研究方向是高性能计算与机器学习的交叉领域,当前研究重点为大规模深度学习训练算法的分布式优化。他曾创造 ImageNet 训练速度的世界纪录,相关研究成果被 Google、Facebook、腾讯等科技巨头在实际中使用。 尤洋曾以一作的身份获得 2018 年国际并行处理大会(ICPP)最佳论文奖,论文《Imagenet training in minutes》所提出的方法刷新了 ImageNet 训练速度的世界纪录。 去年,尤洋和来自谷歌和 UCLA

2020年20个大的SEO优化趋势

扶醉桌前 提交于 2020-11-23 21:40:54
来源 | https://www.geeksforgeeks.org/top-20-seo-trends-in-2020/?ref=rp 翻译 | web前开发(ID:web_qdkf) 你是否曾经想过掌握SEO的艺术?如果是,那么你必须完成一项艰巨的任务,即寻找最新的Google搜索趋势,以更好的提升你的网站排名。由于SEO是一个非常动态变化的字段,因此你需要了解最新的SEO趋势,以保持你在搜索引擎结果中的位置。在这里,我们提供了哪些SEO策略和策略将起作用,并帮助你在2020年的SERP中占主导地位。 每个人都喜欢访问具有较高排名的网站,对于你网站的较高排名,你必须了解随着搜索者行为的改变和新技术的进步而迅速发展的最新SEO趋势和技术。以下是你需要在2020年了解的20个大SEO趋势。 1、 BERT BERT(来自变压器的双向编码器表示)是Google基于神经网络的自然语言处理(NLP)技术。根据Google的说法,BERT有助于理解搜索中单词的细微差别和上下文,并能够更好地将这些查询与更相关的结果进行匹配。 2、语音搜索 语音搜索现在变得越来越庞大。在当今世界,我们正在见证语音搜索革命,几乎每一代人都对此感到满意。 好吧,让我们考虑一下你的情况,你会喜欢那个操作? 是打字还是激动地在智能手机上说出来?。显然是在智能手机上说出来这个操作更令你喜欢

如何兼容自训练与预训练:更高效的半监督文本分类模型

瘦欲@ 提交于 2020-11-23 20:45:24
论文标题: Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining 论文作者: Zijun Sun, Chun Fan, Xiaofei Sun, Yuxian Meng, Fei Wu, Jiwei Li 论文链接: https://arxiv.org/pdf/2011.08626.pdf 代码链接: https://github.com/ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 概述 半监督学习是综合利用标注数据与未标注数据的学习方法。近日,香侬科技研究了如何 更有效地结合半监督自训练和预训练, 即如何在大规模通用领域预训练的前提下,更好地利用大规模 领域内 无标注语料 与标注语料 ,从而最大限度地提升模型效果。 这涉及到一系列问题: 在大规模通用语料下训练的模型是否仍然需要在 上训练? 如何利用 ?是像BERT一样预训练,还是用伪标签的自训练方法? 在不同的 和 条件下,不同的训练方式会有怎样的结果差异? 通过在文本分类任务上的实验,我们发现: 如果有领域内语料 ,那么模型就不需要再在通用领域语料上预训练; 无论是采用预训练的方式还是自训练的方式,都可以显著提升模型效果;