BERT

唱作俱佳,腾讯AI艾灵领唱中国新儿歌

别等时光非礼了梦想. 提交于 2020-08-18 13:39:01
唱作俱佳,腾讯AI艾灵领唱中国新儿歌 今年六一儿童节,腾讯联合北京荷风艺术基金会发起“腾讯荷风艺术行动”,给孩子们送上两份礼物,为音乐美学中国素质教育的发展做出贡献。 其中一份就是由首席儿歌守护唱作人,青年演员歌手王俊凯与雄安孩子,以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物被以特别的方式呈现:在H5互动里,每个人都可以轻松召唤AI艾灵,创作你的专属MV——给几个关键词,艾灵就能为你创作专属歌词,并和王俊凯一起唱给你听。 H5演示视频——推荐使用竖版 https://share.weiyun.com/15lbGUGn 在互动里,唱作俱佳的AI数字人艾灵已搭乘互联网来到每个人面前,她不仅能作词,还能用近乎真人的声线演唱,加上用多模态智能技术搭建的数字躯体,绝对是令你难忘的全能型虚拟歌手。 心动了吗?扫描下方二维码或点击“阅读原文”,制作一个你的新歌mv。 怎么样?是不是高音甜、中音准、低音稳?AI艾灵源自腾讯 AI Lab 的实验探索性技术项目—— AI 数字人(Digital Human) 。项目的目标是把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态 AI 能力与技术深度融合,生成清晰、流畅、高质的可交互内容,打造高拟人度的智能数字人,推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。 AI

Tweet with Disaster(Kaggle NLP项目实战)

折月煮酒 提交于 2020-08-17 21:34:39
Tweet with Disaster(Kaggle NLP项目实战) 项目介绍(Real or Not? NLP with Disaster Tweets) EDA 数据预处理部分 1 导入数据 2 描述性分析 3 数据清洗 4 用词云进行可视化展示 导入Bert预训练模型 构造Bert模型输入 建立模型并训练 提交结果 项目介绍(Real or Not? NLP with Disaster Tweets) 项目kaggle链接:https://www.kaggle.com/c/nlp-getting-started/overview 在紧急情况下,Twitter已经成为一个重要的沟通渠道。智能手机的普及使人们能够实时宣布正在观察的紧急情况。正因为如此,越来越多的机构对程序化监控Twitter(即救灾组织和新闻机构)感兴趣。但是,人们并不总是清楚一个人的话是否真的在宣告一场灾难。比如下面的例子: 作者明确地使用了“燃烧”这个词,但它的意思是隐喻性的。这一点对人类来说是显而易见的,特别是在视觉辅助下。但对机器来说就不那么清楚了。 在这场竞争中,你面临着建立一个机器学习模型的挑战,该模型可以预测哪些Tweets是关于真正的灾难的,哪些Tweets不是。 EDA 数据预处理部分 1 导入数据 train = pd . read_csv ( '../input/nlp-getting

秀!黄仁勋烤箱里端出 7nm 芯片,AI 算力提升 20 倍

佐手、 提交于 2020-08-17 18:07:58
      作 者 | 包永刚    编辑 | 丛 末   突如其来的新冠肺炎大流行打乱了众多公司的产品发布计划,比如本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。今天,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100。   有意思的是,受疫情影响,已经在家工作四十五天的黄仁勋是在家里的厨房提前录制了演讲视频,用三个视频完成了2020 GTC的主题演讲和新品发布。   此次GTC 2020最重磅的产品自然是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。   由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。       1    第八代安培GPU架构性能提升高达20倍   安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。 黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身

如何解决NLP分类任务的11个关键问题?

十年热恋 提交于 2020-08-17 18:07:39
本文首发于公众号「夕小瑶的卖萌屋」 声明:文中观点谨代表笔者个人立场,盲目搬运有风险~ 在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样,我们更应该关注如何利用 机器学习思想 ,更好地去解决NLP分类任务中的 低耗时 、 小样本 、 鲁棒性 、 不平衡 、 测试检验 、 增量学习 、 长文本 等问题。 本文以QA形式探讨了以下问题: Q1: 如何科学地构建分类标签体系? Q2: 标注是「人工」智能的精髓所在,如何省成本、鲁棒、高效地构建任务数据集? Q3: 模型化就是唯一吗?分类任务中,算法策略构建的基本原则是什么? Q4: 特征挖掘立竿见影,如何在特征工程方面搞点事情? Q5: 数据为王,不要将数据闲置,如何将无标注数据更好地派上用场? Q6: 攻克分类任务的难点:如何更好处理不平衡问题(hard example问题)? Q7: BERT时代,如何处理长文本分类? Q8: 预训练融合:NLP竞赛利器! Q9: 你认真构造离线测试集了吗?指标高,也许是虚高! Q10: 模型更新迭代时,如何进行增量学习,不遗忘先前记忆? Q11: 低耗时场景,如何让TextCNN逼近BERT的效果? NLP分类任务我们每个NLPer都异常熟悉了,其在整个NLP业务中占据着举足轻重的地位

ACL2020 | 什么时候值得用BERT上下文嵌入

余生颓废 提交于 2020-08-17 05:57:21
作者 | Victor Karlsson 原文 | 见页面左下角『阅读原文』 编译 | NewBeeNLP 不知道大家在平时使用时有没有发现,BERT的上下文嵌入非常『昂贵』,并且可能无法在所有情况下带来价值。分享一篇ACL2020的论文,介绍了一些思路。 论文:Contextual Embeddings: When Are They Worth It? 代码:https://github.com/HazyResearch/random_embedding 写在前面 诸如BERT或其改进后代之类的SOTA模型,使用起来十分"昂贵"。仅仅是预训练的『BERT-base』模型(用今天的标准几乎可以认为是很小的模型),也需要在16个TPU芯片上花费了超过4天的时间,而这需要花费数千美元。这甚至都没有考虑对模型进行进一步的微调或最终使用,这两者都只会增加最终的总成本。 与其尝试找出创建更小的Transformer模型的方法( 如何修剪BERT达到加速目的?理论与实现 ),不如退后一步去问: 「基于Transformer模型的上下文嵌入何时真正值得使用?」 在什么情况下,使用GloVe或甚至是随机嵌入等计算成本较低的非上下文嵌入(non-contextual embeddings ),可能达到类似的性能? 这些是Arora等人提出的一些问题,而答案就在他们的研究中: Contextual

BERT使用记录/KenLM避坑

旧城冷巷雨未停 提交于 2020-08-17 03:34:40
使用 bert 生成词向量: ##### 运行此脚本 export BERT_BASE_DIR = ./chinese_L-12_H-768_A-12 ## 模型地址 exprot Data_Dir = ./data python bert-master/extract_features.py \   --input_file=$Data_Dir/ train_ch.txt \   --output_file=$Data_dir/output.json \   --vocab_file=$BERT_BASE_DIR/vocab.txt \   --bert_config_file=$BERT_BASE_DIR/bert_config.json \   --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \   --layers=-1,-2,-3,-4 \   --max_seq_length=128 \   --batch_size=8 结果文件是这种形式: {"linex_index": 0, "features":[{"token": "[CLS]", "layers": [{"index": -1, "values":[-0.919886, 0.656876, -0.58464654]}]}]} 解码代码: import re

限时免费 | 人工智能项目实战训练营,给你一个成为AI算法工程师的机会

旧街凉风 提交于 2020-08-16 12:16:11
在当前的就业环境下,人工智能工程师的高薪优势凸显,可却有不少人陷入了瓶颈期,不知道该朝着哪个方向发展自己, “掌握理论知识但缺乏实战经验” 成为了求职晋升路上的短板,硬件设备的不足和自主学习的惰性也成为了前进路上的绊脚石。 在总结了不少学员的急迫需求之后,开课吧人工智能学院特此开展 《人工智能项目实战训练营》 ,开设多个 方向课程 ,帮你找到准确定位。与此同时, 独家实训平台+助教陪伴式学习 也帮你解决学习上软硬件的各种问题, 360度无死角 为你的安心学习铺平道路! 我该如何参加? ① 扫描下方二维码添加课程顾问 获取实训平台说明书以及更多课程福利待遇 ???????????? ② 根据需求自主选择 适合自己 的课程内容 ③ 一线讲师天团 本课程的老师,均来自国际名校(清华大学、佛罗里达大学、浙江大学等)且均具备世界知名企业(阿里巴巴、商汤科技、IBM中国实验室等)的实际工作经验。 01 02 03 04 05 滑动查看更多 ④ 开通实训平台权限,进行自主训练 独家自研线上教学环境, 免除 学员上课前下载步骤,课上 无需 配置环境,代码驱动,可以 实时跟随老师 的授课思路。同时能够 在线进行编辑运行,随学随用 。 独家在线实验环境,让你的上课过程从“只读”模式,转变为“编辑”模式。 ⑤ 根据所选课程进入相对应的班级群, 实现“ 助教+班主任贴心辅导 ”的高效率学习方式: 专人督促

ACL 2020 | 知识库问答的多跳复杂问题查询图生成

吃可爱长大的小学妹 提交于 2020-08-16 07:54:50
©PaperWeekly 原创 · 作者|舒意恒 学校|南京大学硕士生 研究方向|知识图谱 先前从知识库回答复杂问题的工作通常分别解决两种类型的复杂性:具有约束的问题和具有多跳关系的问题。 在本文中,作者同时处理两种类型的复杂性。通过观察发现,尽早将约束条件纳入查询图可以更有效地减少搜索空间, 作者提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。 该文实验清楚地表明,其方法在三个基准 KBQA 数据集上达到了最先进的水平。 论文标题: Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Base 论文来源: ACL 2020 论文链接: https://www.aclweb.org/anthology/2020.acl-main.91.pdf 介绍 知识库问答尝试根据知识库回答事实类问题。它最近吸引了很多研究者的关注。知识库问答的早期研究,关注于只包含一个关系的简单问题。但是,真实的问题通常更加复杂,因此最近的研究关注于复杂的知识库文档。 当前有两种类型的复杂性被研究。 第一,带有约束的单关系问题。例如一个问题,谁是第 1 任美国总统?其中有一个简单的关系是,某个国家的总统。但也有一个约束,也就是第一个这个条件需要被满足。针对这种问题

连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT

陌路散爱 提交于 2020-08-15 13:26:11
  机器之心报道    编辑:泽南    「逆算」赛题 + 百万奖池,腾讯广告算法大赛已经成为了全球最受瞩目的算法赛事。   在国内机器学习领域里,有这样一个享有盛名的数据竞赛,虽然每年仅举办一届,但每届都能吸引上万名技术人前来参加,它奖金丰厚,评委阵容豪华,还提供优质的计算资源供选手使用。   它就是腾讯广告算法大赛,这场全球最受瞩目的算法盛事今年已经举办到了第四届。      腾讯广告副总裁蒋杰为 2020 腾讯广告算法大赛决赛致辞。   今年的腾讯广告算法大赛早在开赛之前就吸引了颇多技术圈层的期待和关注,加上全新升级的赛制、加码奖金池和顶级评委阵容的加持,自 4 月 15 日正式开赛以来,比赛吸引了来自超过 1,000 所国内外院校和 3,000 家企事业单位的 11,000 + 人报名,这一数字超过同类算法竞赛 2 倍以上。   毫不夸张地说,腾讯广告算法大赛已经成为了全球最受瞩目的算法竞赛之一。   当前,大数据技术与应用逐渐成为营销链路上不可或缺的一环,随之衍生的数据竞赛也成为了各家企业探索前沿课题、吸纳人才的重要方式之一。本届腾讯广告算法大赛则另辟蹊径,针对广告行业的经典假设,出具了一道 「逆向思维」 的全新赛题。   与此同时,腾讯广告算法大赛的奖金纪录也再度自我超越,总奖池近百万人民币,冠军奖金约 50 万人民币,这也引来「无数技术英雄竞折腰」。    从结果

(含源码)「自然语言处理(QA)」基于常识的对话生成&&多任务学习(MTL)&&多实例学习&&结构化语义表示

橙三吉。 提交于 2020-08-15 13:21:26
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 本次分享的论文都是 Question Answering 相关~~ 引言 本文主要偏向于开放式对话,其主要内容包括:基于 常识知识的对话生成模型 、基于 多视角注意力 的学习方案(多任务学习)、俄罗斯开放知识问答库RuBQ、多语言QALD流程、基于BERT的 JarvisQA 系统、基于 多实例学习 方法、 结构化的语义 表示协助问答系统调试等 。 (四篇含源码) 微信下载论文不方便,你可以直接回复: QA009 进行打包下载 。 资料整理不易, 最后 帮作者 点个赞 、 点个在看 吧,谢谢~~ 往期QA系列论文 : (含源码)Question Answering(QA)论文整理(一) (含源码)Question Answering(QA)论文整理(二) (含源码)Question Answering(QA)论文整理(三) (含源码)Question Answering(QA)论文整理(四) (含源码)Question Answering(QA)论文整理(五) (含源码)Question Answering(QA)论文整理(六) (含源码) Question Answering(QA)论文整理 (七) (含源码) Question Answering(QA)论文整理 (八) 正文开始 1 First Blood 1