BERT

详解下一代神经网络-无监督对比学习框架SimCLR

不打扰是莪最后的温柔 提交于 2020-08-10 08:40:00
背景 今天介绍下SimCLR,也是Hinton老爷子在今年提出的工作。首先介绍下为什么下一代神经网络需要无监督对比学习。目前整个人工智能行业的落地,其实都依赖于监督学习模式,无论是OCR、ASR、TTS、ImageDetection,如果没有大量的标注,是很难训练出商业化程度的模型的。这个模式需要被打破,因为世界上存在太多的未知场景,完全依赖人肉标注是不行的。 所以未来无监督学习大势所趋。其实在这方面之前已经有了一些工作,比如Bert模型,就可以基于大量的unlabeled数据训练,然后在小数据集上Fintune来取得效果。类似Bert这一类的训练模式叫做自监督学习。这种模式在NLP领域会有比较好的效果,但是在图像领域效果不明显,因为图像的数据表示会比语意复杂得多。 举个简单例子,“喜欢_ _ _ _的人都会关注凡人机器学习”,这句话虽然空了4个字,但是根据上下文不难猜出这4个字是“机器学习”。所以在NLP领域,自监督是比较好实现的。但是在图像方面,假设戴了墨镜,你能根据一个人的鼻子、嘴和耳朵推测出这个人墨镜后面的样子么?所以图像领域的无监督学习要难的多。 SimCLR基本原理 SimCLR使用无监督对比学习模式在图像领域取得了突破性的成果,可以看下在ImageNet数据集的表现。 那SimCLR究竟是怎么实现的呢,我们分步骤介绍下,看下图: 第一步:Augmentation

卧槽!秒懂中文文本分类!

淺唱寂寞╮ 提交于 2020-08-10 00:46:23
这是阿三的第 52 期分享 作者 | 阿三 首发 | 程序员遇见GitHub 大家好,我是阿三,今天给大家带来的是一个中文文本分类代码仓库。 一.Chinese-Text-Classification 作者利用了TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention, DPCNN, Transformer的多种模型进行了文本分类,给出了自己利用不同模型的测试效果 对于这个仓库的代码,作者有非常详细的文档,从环境: 采用的数据集: 和每一个模型代码的使用方法 对于想要了解中文文本分类的读者,这个仓库提供了非常全面的资料,赶快学习起来吧。 学习地址: https://github.com/649453932/Chinese-Text-Classification-Pytorch ​ github.com 推荐阅读: 我教你如何读博! 牛逼!轻松高效处理文本数据神器 B站强化学习大结局! 如此神器,得之可得顶会! 兄弟们!神经网络画图,有它不愁啊 太赞了!东北大学朱靖波,肖桐团队开源《机器翻译:统计建模与深度学习方法》 当年毕业答辩!遗憾没有它... 已开源!所有李航老师《统计学习方法》代码实现 这个男人,惊为天人!手推PRML! 它来了!《深度学习》(花书) 数学推导、原理剖析与代码实现 你们心心念念的MIT教授Gilbert

使用片段嵌入进行文档搜索

血红的双手。 提交于 2020-08-09 14:42:50
作者|Ajit Rajasekharan 编译|VK 来源|Towards Data Science 从文档中获取的句子片段的嵌入可以作为该文档的提取摘要方面,并可能加速搜索,特别是当用户输入是一个句子片段时。这些片段嵌入不仅比传统的文本匹配系统产生更高质量的结果,也是问题的内在驱动的搜索方法。现代向量化表示挑战创建有效的文档嵌入,捕捉所有类型的文档,使其通过使用嵌入在文档级别进行搜索。 例如“蝙蝠是冠状病毒的 来源 ”、“穿山甲 中 的冠状病毒”,由介词、形容词等连接一个或多个名词短语的短序列。这些突出显示的连接词在很大程度上被传统搜索系统忽略,它们不仅可以在捕获用户意图方面发挥关键作用(例如,“蝙蝠中的冠状病毒”不同于“蝙蝠是冠状病毒的来源”或“蝙蝠中不存在冠状病毒”)的搜索意图,但是,保留它们的句子片段也可以是有价值的候选索引,可以用作文档的摘要提取方面(子摘要)。通过将这些句子片段嵌入到适当的嵌入空间(如BERT)中,我们可以使用搜索输入片段作为对该嵌入空间的探测,以发现相关文档。 需要改进使用片段的搜索 找到一个有文献证据支持的综合答案来回答“COVID-19来源什么动物?”或者“冠状病毒与之结合的受体”,即使是在最近发布的covid19数据集这样的小数据集上(约500 MB的语料库大小,约13k文档,8500多万单词,文本中约有100万个不同的单词),也是一个挑战。

阿里提供中文搜索新选项!AI引擎+达摩院黑科技,你要试试吗?

别说谁变了你拦得住时间么 提交于 2020-08-09 11:20:24
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 最近中文搜索引擎市场又突然热了起来,一家巨头的入场让外界充满期待。 6月9日,阿里向外界确认成立智能搜索业务部,隶属阿里创新业务事业群,由UC事业部总经理、书旗事业部总经理吴嘉担任负责人。 阿里人事变动,莫非要进军搜索引擎市场?其实阿里的产品早已先行。 今年4月,一款名为“夸克”的智能搜索App首次在苹果应用商店排名超越百度,并首次跻身前20。 其实早在2018年,夸克就开始发力智能搜索,2019年1月,夸克发布3.0版,在自主订制的AI搜索引擎、搜索直达、指令控制等方面实现了重要升级。 搜索引擎诞生已有20余年,无论国内外,市场似乎早已尘埃落定,阿里为何如此“头铁”,夸克为何近两年来越来越进击智能搜索? 这恐怕与近年来AI成熟落地密不可分,也不得不从搜索行业的变化开始说起。 多模态搜索的变革 PC时代,我们以文字作为主要的搜索形式。移动互联网兴起后,手机端的搜索引擎App依然如此。 后来,智能手机开始普及,说一段话、拍一张图变得容易起来,各大搜索引擎公司又加入了语音、图片搜索。 如果我们仔细思考就会发现,现阶段大多数语音、图片搜索,其实本质上还是把多媒体信息转变成文字,然后再进行搜索。 这类搜索只是理解用户输入的信息,实际上对另一端抓取的信息是没有理解的

深度学习之父Hinton:下一代神经网络

泄露秘密 提交于 2020-08-09 06:51:50
     作者 | 青暮、陈大鑫   编辑 | 丛 末   SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,若非疫情影响,今年本定于中国西安市举行。7月25日-7月30日,第43届SIGIR2020在线上举行。   7月27日,2018年图灵奖得主Geoffrey Hinton带来了主题为《The Next Generation of Neural Networks》的讲座。讲座由约克大学信息技术学院正教授Jimmy Huang主持,ACM杰出科学家、 吉林大学人工智能学院常毅教授担任嘉宾。   在讲座中,Hinton指出: 人工神经网络最重要的未解难题之一,是如何像大脑一样有效地进行无监督学习。   当前有两种主要的无监督学习方法:   第一种方法,以BERT和变分自编码器为例,使用了深度神经网络来重建其输入。这种方法对于图像来说是有问题的,因为网络的最深层需要对图像的精细细节进行编码。   第二种方法是Becker和Hinton在1992年提出的:当给定相同图像的两个不同片段作为输入时,训练深度神经网络的两个副本以产生具有高互信息的输出向量。设计此方法的目的是使表征形式不受输入无关细节的束缚。   Becker和Hinton使用的优化互信息的方法存在缺陷(出于一个微妙的原因,讲座中会解释),因此Pacannaro和Hinton将其替换为判别性目标函数

GAITC专题论坛丨张俊林:AI时代下大规模机器学习的应用

偶尔善良 提交于 2020-08-08 12:54:42
  7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。    新浪微博机器学习团队AI Lab负责人张俊林本次专题论坛上,与来自业界、学术界的嘉宾们分享了《机器学习在微博的应用》。      图注:新浪微博机器学习团队AI Lab负责人张俊林作主题演讲。    张俊林提到,在新闻场景中,或者微博场景中,实时模型的在线学习非常重要。用户兴趣可能会非常快速的发展变化,尤其是在视频的场景下。作为机器学习模型,如何更快捕获到用户行为、兴趣的变化?如果把兴趣点体现到模型中,并实时更新,那么再做下一刷的时候,新兴趣可能就体现出来,这就是所谓的实时模型。    他认为,在当前日益激烈的竞争环境下,以大数据+深度模型的新技术对于推动用户进一步增长非常重要。    以下为张俊林演讲实录,内容经编辑略有删减:    尊敬的各位嘉宾,网上的朋友大家好,首先我个人非常感谢论坛主席能够提供这么好的机会让我来给大家分享一下人工智能在微博中的应用。    大家都知道,新浪新闻和新浪微博,应该说是我们公司在AI时代下大环境的变迁情况下两个典型的个性化的应用。在这种个性化的推荐场景下

ACL 2020 | 用BERT解决表格问答任务,谷歌提出弱监督表格解析器TaPas

我与影子孤独终老i 提交于 2020-08-08 12:13:22
BERT 在自然语言上已经取得了非凡的成就。近日,谷歌一篇 ACL 2020 论文又将 BERT 模型应用到了基于表格的问答场景中,为弱监督式的表格解析性能带来了显著提升。此外,谷歌开源了相关代码和预训练模型。 选自Google AI Blog,作者:Thomas Müller,机器之心编译,参与:Panda。 论文地址: https:// arxiv.org/pdf/2004.0234 9.pdf 代码和模型: https:// github.com/google-resea rch/tapas 世上许多信息都是以表格形式存储的,这些表格见诸于网络、数据库或文件中。它们包括消费产品的技术规格、金融和国家发展统计数据、体育赛事结果等等。目前,要想找到问题的答案,人们仍需以人工方式查找这些表格,或使用能提供特定问题(比如关于体育赛事结果的问题)的答案的服务。如果可通过自然语言来查询这些信息,那么取用这些信息会容易很多。 举个例子,下图展示了一个表格,并给出了一些人们想问的问题。这些问题的答案可在该表格的一个或多个单元格中找到(哪位摔跤运动员夺冠次数最多?),或需要聚合多个单元格的信息才能得到(仅夺冠一次的世界冠军有多少人?)。 表格,以及问题和预期答案。有的答案通过选择即可得到(如问题 1 和问题 4),有的答案则需要计算(问题 2 和问题 3)。 针对这一问题

用于多文本分类的孪生和双 BERT

爷,独闯天下 提交于 2020-08-07 21:26:41
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 本文介绍了在模型中插入 Transformer 的不同方法。 人们对自然语言处理的不断研究催生了各种预训练模型的发展。在各种任务(如文本分类、无监督的主题建模和问题解答等)的最新结果方面,通常都有越来越多的改进,这是一个典型的现象。 最大的发现之一是在神经网络架构中采用了注意力机制(attention mechanics)。这种技术是所有称为 Transformer 的网络的基础。它们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到学习向量中。 作为数据科学家,我们可以产生并使用许多 Transformer 架构来对我们的任务进行预测或微调。在本文中,我们尽情享受经典的 BERT,但同样的推理也可以应用到其他所有的 Transformer 架构中。我们的研究范围是在双(dual)架构和孪生(siamese)架构中使用 BERT,而不是将其作为多文本输入分类的单一特征提取器。 数据 我们从 Kaggle 收集了一个数据集: News Category Dataset (新闻分类数据),它包含了 2012 年到 2018 年从 HuffPost 获得的大约 20 万条新闻标题。我们的范围是根据两种不同的文本来源对新闻文章进行分类:标题和简短描述。总共有 40

开源啦!开源啦!UNILM中文模型开源啦!

帅比萌擦擦* 提交于 2020-08-07 09:07:17
本着一颗开源之心,我司开源了中文版的base_unilm模型。 链接地址如下 : https:// github.com/YunwenTechno logy/Unilm UniLM 论文全名为Unified Language Model Pre-training for Natural Language Understanding and Generation,译为自然语言理解与生成的统一预训练语言模型,来自于微软研究院。 论文地址: paper UniLM模型之所以强大,是因为它 既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。 结构与BERT一致,是由一个多层Transformer网络构成,通过修改训练时的Mask矩阵,使模型拥有更多的能力。详细论文解读如下: 刘聪NLP:UniLM论文阅读笔记 ​ zhuanlan.zhihu.com Pre-train 预训练数据: CLUE中的维基百科数据和新闻语料数据,链接: github 。 训练参数: 在模型预训练过程中,在一个训练batch中,使用1/3的数据进行双向语言模型优化,1/3的数据进行序列到序列语言模型优化,1/6的数据进行从左向右的单向语言模型优化,1/6的数据进行从右向左的单向语言模型优化。 模型结构与BERT-base模型一致

SIGIR会议之文本表征、检索重排序、阅读理解论文整理

余生颓废 提交于 2020-08-07 08:57:54
SIGIR会议已开,论文已全部放出,已做修改! 花一个上午的时间整理了一下SIGIR会议的检索相关论文, 主要涉及:文本的表征、检索及重排序、阅读理解,其他等。 不过有一些论文还搜不到(还没放出来),只能把题目挂上来,后续再做补充。 SIGIR会议论文地址如下: SIGIR 2020 ​ sigir.org 一、文本的表征 (1) Convolutional Embedding for Edit Distance Paper: https:// arxiv.org/abs/2001.1169 2 (2) Match^2: A Matching over Matching Model for Similar Question Identification Paper: https:// arxiv.org/abs/2006.1171 9 (3) Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Document Similarity Paper: https:// arxiv.org/abs/2007.0322 5 (4) Attending to Inter-sentential Features in Neural Text Classification