BERT

视频搜索太难了!阿里文娱多模态搜索算法实践

笑着哭i 提交于 2020-08-15 07:10:42
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展。 阿里文娱高级算法专家若仁在 GMIC 2020 分享了视频搜索技术和多模态在视频搜索领域的应用,本文整理自演讲速记,希望能给关注或从事视频搜索方向的算法同学带来启发。 考虑到大家来自不同的业务领域和技术方向,我会先简单介绍优酷视频搜索的业务背景,同时快速介绍搜索的基本评估指标、搜索系统的算法框架以及相关性和排序模型,让大家对视频搜索有一个更全面的认识,后面重点介绍多模态视频搜索相关技术。 阿里文娱搜索现状 搜索团队为整个阿里文娱提供一站式的搜索服务,服务范围包括优酷 Phone 和 OTT 端,还包括大麦、淘票票。涉及的检索内容,从影剧综漫的长视频影视库,到覆盖社会各领域的 UPGC 视频。此外,影人和演出场馆也在搜索服务覆盖范围内。以优酷为例,我们有数亿视频资源,不仅包括平台购买了版权的 OGC 视频,更多是用户上传的 UPGC 视频。视频的存储、计算以及分发,比文字更具挑战。 搜索技术的用户价值主要体现在两个维度: 一是工具属性。

刷新五项SOTA,百度ActBERT:基于动作和局部物体的视频文本特征学习模型

孤街醉人 提交于 2020-08-14 15:42:14
全球计算机视觉顶会 CVPR 2020 上,百度共计有 22 篇论文被接收。这篇 Oral 论文中,百度提出了 ActBERT,该模型可以学习叙述性视频进行无监督视频文本关系,并提出纠缠编码器对局部区域、全局动作与语言文字进行编码。最终在 5 项相关测评任务上取得了 SOTA 结果。 机器之心发布,机器之心编辑部。 ActBERT 在下游视频和语言任务上,即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术,展示了其在视频文本表示方面的学习能力。 论文:《ActBERT: Learning Global-Local Video-Text Representations》 论文链接: http:// openaccess.thecvf.com/c ontent_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf 现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式,通过聚类离散化将视觉特征转化为视觉单词。但是,详细的局部信息,例如,互动对象,在聚类过程中可能会丢失,防止模型进一步发现细粒度的视频和文字对应关系。本文提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述

BERT生成文本摘要

喜你入骨 提交于 2020-08-14 13:28:48
作者|Daulet Nurmanbetov 编译|VK 来源|Towards Data Science 你有没有曾经需要把一份冗长的文件归纳成摘要?或者为一份文件提供一份摘要?如你所知,这个过程对我们人类来说是乏味而缓慢的——我们需要阅读整个文档,然后专注于重要的句子,最后,将句子重新写成一个连贯的摘要。 这就是自动摘要可以帮助我们的地方。机器学习在总结方面取得了长足的进步,但仍有很大的发展空间。通常,机器摘要分为两种类型 摘要提取:如果重要句子出现在原始文件中,提取它。 总结摘要:总结文件中包含的重要观点或事实,不要重复文章里的话。这是我们在被要求总结一份文件时通常会想到的。 我想向你展示最近的一些结果,用BERT_Sum_Abs总结摘要,Yang Liu和Mirella Lapata的工作Text Summarization with Pretrained Encoders: https://arxiv.org/pdf/1908.08345.pdf BERT总结摘要的性能 摘要旨在将文档压缩成较短的版本,同时保留其大部分含义。总结摘要任务需要语言生成能力来创建包含源文档中没有的新单词和短语的摘要。摘要抽取通常被定义为一个二值分类任务,其标签指示摘要中是否应该包含一个文本范围(通常是一个句子)。 下面是BERT_Sum_Abs如何处理标准摘要数据集:CNN和Daily Mail

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

蹲街弑〆低调 提交于 2020-08-14 05:09:33
前天晚上ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中,这篇的标题并不起眼,属于看到就想直接跳过的类型。今天细读了一下,发现确实是很有意义的工作。在此与大家分享。 背景介绍 这篇paper解决的是NLP领域的模型评测问题。目前最主流的评测方法是从已有数据中划分出一部分作为测试集,然后测试模型准确率。但这并不能全面地评估一个模型的好坏,还有很多意想不到的情况: 测试集有部分数据和训练集相似度很高,模型如果overfit了也无法发现 测试集存在bias,与真实场景分布不一致 模型采用了某种shortcut才在数据集上表现良好 所以,模型的评估环节存在着不少风险,很难做出一个完美的benchmark。 近年来也涌现了大量关注NLP评测的工作。但之前的这些工作往往还是只能检测模型某种单方面的能力(例如,对噪音的鲁棒性),或者只是提出了针对某种特定任务的评测指标(例如针对NLG任务,测试生成文本前后逻辑一致性)。而且,这些新提出的测试方法往往实际操作起来并不容易。所以尽管传统方法诟病已久,却仍然大行其道。 本文提出的CHECKLIST是一种全新的、颠覆性的评测方式。作者认为:应当 全方位对模型多项

标注样本少怎么办?「文本增强+半监督」方法总结

喜你入骨 提交于 2020-08-14 00:03:58
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无增强监督学习模型,性能有较大幅度的提升; 在少样本场景下,能够达到或者逼近充分样本下的监督学习模型性能; 在充分样本场景下,性能仍然有一定提升; 基于此,本文首先总结了nlp中的文本增强技术,然后串讲了近年来9个主流的半监督学习模型,最后重点介绍了来自Google提出的UDA(一种文本增强+半监督学习的结合体)。本文的组织结构为: 1、NLP中的文本增强技术总结 谈起文本增强技术,相信NLPer一定不会陌生,相关方法也是数不胜数。我们通常对标注数据集提供附加的感应偏置进行扩充,如何设计增强变换就变得至关重要。本文尝试从一个新角度——是否条件增强,借鉴文献[1]进行了总结归纳: 1.1 无条件增强 定义:既可以对标注数据进行增强(增强后标签不发生变化),又可以针对无标注数据进行增强,不需要强制引入标签信息。 词汇&短语替换 基于词典 :主要从文本中选择词汇或短语进行同义词替换,词典可以采取 WordNet 或哈工大词林等。著名的 EDA

图计算黑科技:打开中文词嵌入训练实践新模式

巧了我就是萌 提交于 2020-08-13 19:53:25
在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文将尝试从图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。文章作者:翟彬旭,腾讯云大数据高级研发工程师。 一、技术背景 在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似匹配是一个常见且棘手的问题。NLP(自然语言处理)社区对文本的匹配和召回已经经历从早期的基于分词和倒排索引的全文检索过渡到如今流行的文本向量检索。 向量检索通过训练和学习文本的分布式表征得到文本向量,可以解决倒排索引无法解决的语义相似度匹配问题,而且针对高维向量的大规模快速检索在业界已经有相当成熟的解决方案,如Faiss、Nmslib等。 但目前业内常用的表示学习方法很少考虑中文场景下由于输入法输入错误、发音问题等导致的文本相似匹配问题。 例如,在笔者所在的腾讯云企业画像产品研发过程中,就经常遇到类似的需求。当用户在我们的产品中搜索“腾迅科技集团股份有限责任公司”时,此时用户希望搜索的企业工商注册名称应该是“腾讯科技(深圳)有限公司”,但由于输入法错误(将“腾讯”错输为“腾迅”)、认知错误(将“有限责任公司”误认为“集团股份有限责任公司”)等原因

资源论文非系统论文,NLP圈同行评审存在的六大固化误区!

Deadly 提交于 2020-08-13 19:18:58
      编译 | 王雪佩    编辑 | 丛 末   NLP中的大多数成功案例都是关于监督学习或半监督学习的。从根本上说,这意味着我们的解析器、情感分类器、QA系统和其他一切都和训练数据一样好。基于这一事实,数据和模型工程,对于 NLP 进一步的发展来说同样重要。这就是为什么顶级会议 ACL 通常还专设了一个“资源和评估”通道,并颁发最佳资源论文奖。   然而,创建模型和资源这两项任务所需要的技能集并不相同,往往也来自不同的领域,这两个领域的研究者往往也对“论文应该是怎样的”抱有不同的期望。这就使得审稿人的工作进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的原因可能并非论文实际存在任何缺陷,而是它的基本方法论“不合适”。   对于这一点比较失望的作者们在线上或线下展开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就“论文应该是怎么样的”达成一致,那么提交论文就是浪费彼此的时间。作者希望,本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。    1    同行评审对资源论文的六大误区   让我们从消除一些关于资源论文的误区开始。 注:下面所有引用都来自ACL审稿人对论文的真实评论!    误区1:资源论文不是科学  

一文了解NLP中的数据增强方法

别等时光非礼了梦想. 提交于 2020-08-13 18:46:06
最近研究了一阵文本数据增强的方法,看到国外有一个小哥写了一篇很不错的博客来总结 NLP 领域数据增强的方法,读完感觉收益颇多,所以周末花了一上午时间翻译了一下全文。 原文地址: A Visual Survey of Data Augmentation in NLP 翻译:简枫(转载请私信或邮件) 数据增强技术在计算机视觉中应用的比较广泛,但是在 NLP 中却很少能得到有效的应用。本质原因在于图像中的一些数据增强方法,比如将图像旋转几度或将其色度转换为灰度,在增强数据的同时并不会改变图像本身的含义。这种特性使得数据增强成为计算机视觉研究中的一种重要工具。 不同于 CV,NLP 中想要做数据增强,明显困难很多 我对是否有人尝试去开发 NLP 相关的数据增强技术很感兴趣,所以找时间研究了一下现有的文献。在这篇文章中,我会努力去概述当前用于文本数据增强的方法,同时也提供对应的参考文献,供大家学习。 NLP 里面数据增强的常用方法 1. 词汇替换 这一类的工作,简单来说,就是去替换原始文本中的某一部分,而不改变句子本身的意思。 1.1 基于同义词典的替换 在这种方法中,我们从句子中随机取出一个单词,将其替换为对应的同义词。例如,我们可以使用英语的 WordNet 数据库来查找同义词,然后进行替换。 WordNet 是一个人工维护的数据库,其中包含单词之间的关系。 使用 WordNet

GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!

徘徊边缘 提交于 2020-08-13 16:04:24
一只小狐狸带你解锁 炼丹术& NLP 秘籍 2018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。 最初的GPT只是一个12层单向的Transformer,通过预训练+精调的方式进行训练,BERT一出来就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任务的输入输出进行了整合,全部用文字来表示,比如对于翻译任务的输入是“英翻法:This is life”,输出是“C'est la vie”。直接把任务要做什么以自然语言的形式放到了输入中。通过这种方式进行了大规模的训练,并用了15亿参数的大模型,一举成为当时最强的生成模型。 遗憾的是,GPT-2在NLU领域仍并不如BERT,且随着19年其他大模型的推出占据了下风,年初微软推出的Turing-NLG已经到达了170亿参数,而GPT-2只有15亿。这些模型的尺寸已经远远超出了大部分公司的预算和调参侠们的想象。。。已经到极限了吗? 不,“极限挑战”才刚刚开始,OpenAI在十几个小时前悄然放出了GPT第三季——《 Language Models are Few-Shot Learners 》。 paper链接:https://arxiv.org

写给程序员的机器学习入门 (六)

半腔热情 提交于 2020-08-13 13:37:28
这一篇将会举两个例子说明怎么应用递归模型,包括文本情感分类和预测股价走势。与前几篇不同,这一篇使用的数据是现实存在的数据,我们将可以看到更高级的模型和手法🤠。 例子① - 文本感情分类 文本感情分类是一个典型的例子,简单的来说就是给出一段话,判断这段话是正面还是负面的,例如淘宝或者京东上对商品的评价,豆瓣上对电影的评价,更高级的情感分类还能对文本中的感情进行细分。因为涉及到自然语言,文本感情分类也属于自然语言处理 (NLP, Nature Langure Processing),我们接下来将会使用 ami66 在 github 上 公开的数据 ,来实现根据商品评论内容识别是正面评论还是负面评论。 在处理文本之前我们需要对文本进行切分,切分方法可以分为按字切分和按单词切分,按单词切分的精度更高但要求使用分词类库。处理中文时我们可以使用开源的 jieba 类库来按单词切分,执行 pip3 install jieba --user 即可安装,使用例子如下: # 按字切分 >>> words = [c for c in "我来到北京清华大学"] >>> words ['我', '来', '到', '北', '京', '清', '华', '大', '学'] # 按单词切分 >>> import jieba >>> words = list(jieba.cut("我来到北京清华大学")) >>