监督学习

脑洞大开!Adobe等新研究把「自拍」变「他拍」,魔幻修图效果感人

邮差的信 提交于 2020-10-15 21:33:48
   自拍也能变为他拍,魔幻修图界又出新招式,但效果实在感人。   智能手机的出现,让摄影变成了一项大众艺术,也让越来越多的人爱上「自拍」。但自拍照常常存在构图问题,比如不自然的肩膀姿势、占据一小半镜头的手臂,或者极其诡异的视角。      要想解决这个问题,可以选择随身携带三脚架或自拍杆,也可以选择随身携带一个朋友作为摄影师(该方法对单身狗极其不友好)。   或者,你还可以选择相信后期修图的艺术。近日, 来自 Adobe 研究院、UC 伯克利、鲁汶大学的研究者开发了一种「自拍」变「他拍」的新技术,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善和合成人物 。      在这篇论文中,研究者提出了一种叫做 「Unselfie(非自拍)」的图片转换方法,能够将自拍照中的人物,转变为手臂、肩膀、躯干都比较放松舒展的“他拍图像”。它会把所有举起的手臂调整为向下,然后调整服装细节,最后填充好所有暴露出来的背景区域。      论文链接:https://arxiv.org/pdf/2007.15068.pdf   除了用来修饰社交媒体上的自拍照,这项技术还有很多应用方式,如果你急需一张证件照,而无人能帮你拍摄,那这项技术就能派上用场。      当然,这个方法目前还不太成熟,除了效果一般之外,偶尔还有翻车的时候,比如生成这样的图像:       「自拍」转「他拍」的三大挑战  

GraphSAGE图神经网络算法详解

主宰稳场 提交于 2020-10-15 08:25:28
GraphSAGE 是 17 年的文章了,但是一直在工业界受到重视,最主要的就是它论文名字中的两个关键词:inductive 和 large graph。今天我们就梳理一下这篇文章的核心思路,和一些容易被忽视的细节。 为什么要用 GraphSAGE 大家先想想图为什么这么火,主要有这么几点原因,图的数据来源丰富,图包含的信息多。所以现在都在考虑如何更好的使用图的信息。 那么我们用图需要做到什么呢?最核心的就是利用图的结构信息,为每个 node 学到一个合适的 embedding vector。只要有了合适的 embedding 的结果,接下来无论做什么工作,我们就可以直接拿去套模型了。 在 GraphSAGE 之前,主要的方法有 DeepWalk,GCN 这些,但是不足在于需要对全图进行学习。而且是以 transductive learning 为主,也就是说需要在训练的时候,图就已经包含了要预测的节点。 考虑到实际应用中,图的结构会频繁变化,在最终的预测阶段,可能会往图中新添加一些节点。那么该怎么办呢?GraphSAGE 就是为此而提出的,它的核心思路其实就是它的名字 GraphSAGE = Graph Sample Aggregate。也就是说对图进行 sample 和 aggregate。 GraphSAGE 的思路 我们提到了 sample 和 aggregate

数据采集,AI产业落地的“助推器”丨曼孚科技

末鹿安然 提交于 2020-10-15 00:45:28
算法、算力与数据是构成人工智能的三个基本要素。随着人工智能技术在算法与算力层面达到阶段性基本成熟,人工智能行业掀起一轮落地应用的热潮。 从技术层面分析,本轮人工智能落地热潮主要集中于计算机视觉领域和语音交互领域,较为依赖机器学习领域中的深度学习方式。​ 目前,主流的深度学习方式以有监督学习模式为主。在该模式下,算法训练需要依靠标注数据对学习结果进行反馈,对于数据有着强依赖性需求,这也带动了AI基础数据服务行业的繁荣。 AI基础数据服务是指为AI算法训练及优化提供相关产品与服务,主要以数据集产品和数据资源定制服务为主,具体包括数据采集、数据清洗和数据标注等内容。 其中,数据采集是指对目标领域、场景的特定原始数据进行采集的过程,采集的数据以图像类、文本类、语音类、视频类等非结构化数据为主。从业务流程角度来看,数据采集是AI基础数据服务行业全流程服务中的“第一步”,采集到的非结构化数据经过清洗与标注,才能被用于机器学习训练。 因此数据采集业务也是众多数据服务企业较为核心的业务之一,一家优秀的数据采集服务企业应当具备如下优势: 1.拥有丰富的采集渠道 采集的数据按照不同类型可以划分为图像、语音、文本、视频等内容,每一个大类又可以细分为众多小类。 以语音采集为例,按照语种的不同,可细分为普通话采集、方言采集、英语采集、小语种采集等,这对数据采集服务企业的采集覆盖能力提出了极高的要求。

Mxnet (39): 上下文敏感的nlp模型:BERT

99封情书 提交于 2020-10-12 01:43:58
word2vec和GloVe之类的词嵌入模型是与上下文无关。他们将相同的预训练向量分配给相同的单词,而不管该单词的上下文(如果有)。他们很难用自然语言处理好多义性或复杂的语义。这种上下文无关的很有局限性,因此出现了很多上下文敏感的模型,ELMo为其中之一。 ELMo将来自预训练的双向LSTM的所有中间层表示形式组合为输出表示形式,然后ELMo表示将作为附加功能添加到下游任务的现有模型中。虽然这解决了上下文无感的问题,但是解决的方案取决与特定的任务体系。但是,为每个自然语言任务设计特定的体系比价困难。为此GPT模型设计为用于上下文相关且非任务确定的通用模型。GPT建立在Transformer解码器上,可以预训练将用于表示文本序列的语言模型。当将GPT应用于下游任务时,语言模型的输出将被馈送到添加的线性输出层中,以预测任务的标签。但是由于模型具有自回归特征,只能向前看(从左到右),在“我去银行存钱”和“我去银行坐下”的情况下,由于“银行”对左侧的上下文很敏感,因此GPT将为“银行”返回相同的表示形式有不同的含义。 ELMo双向编码上下文,GPT与任务无关。BERT吸取了二者的有点,可以双向编码上下文,使用预训练的Transformer编码器,BERT可以基于其双向上下文表示任何token。下图展示了三者的差异: 用于下游任务的监督学习时: BERT表示将被输入到一个附加的输出层中

周明:预训练模型在多语言、多模态任务的进展

旧街凉风 提交于 2020-10-10 14:31:54
     作者 | 周明   编辑 | 陈彩娴   8月29日至30日,由中国科学技术协会、中国科学院、南京市人民政府为指导单位,中国人工智能学会、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在江苏南京新加坡·南京生态科技岛举办。在大会上,微软亚洲研究院副院长、国际计算语言学会(ACL)前任主席周明做了主题为《预训练模型在多语言、多模态任务的进展》的特邀报告。   以下是周明老师的演讲实录:    1    预训练模型助力NLP   自然语言处理(NLP),目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策,并支持客服、诊断、法律、教学等场景。自然语言理解,被认为是AI皇冠上的明珠。一旦有突破,则会大幅度推动AI在很多重要场景落地。   过去这五年,对自然语言是一个难忘的五年,它的一个标志就是神经网络全面引入到了自然语言理解。从大规模的语言数据到强有力的算力,加上深度学习,把整个自然语言带到一个新的阶段。   今天我要讲的预训练模型,它使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以大规模、可复制的大工业施展的阶段,令我们这个领域的人感到非常振奋。而且预训练模型从单语言、扩展到多语言、多模态任务。一路锐气正盛,所向披靡。   那么

从自监督学习主流方法、最新工作进展,看未来前景研究方向

时间秒杀一切 提交于 2020-10-10 00:28:37
来源: 机器学习算法与自然语言处理 本文约 6000字 ,建议阅读 10分钟。 找到合适的辅助任务,对于自监督学习是最需要解决的问题。 本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。 与此同时,文中也穿插着几大主流方法的最新工作进展,现在正在探索自监督学习未来前景研究方向的同学,也不妨借鉴一二,说不定能找到灵感哦~ 学习的范式 我们首先来回顾下机器学习中两种基本的学习范式,如图所示,一种是监督学习,一种是无监督学习。 监督学习与无监督学习[1] 监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,通过不断的学习,最终可以获得识别新样本的能力。而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 无监督学习中被广泛采用的方式是自动编码器(autoencoder): 深度自编码器[6] 编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况,无损重构),同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。 对于如何学习隐层向量的研究

一行命令跑评测,港中文MMLab开源自监督表征学习代码库

感情迁移 提交于 2020-10-09 05:10:42
   自监督表征学习发展迅速,但也存在诸多问题。近日,香港中文大学多媒体实验室(MMLab)和南洋理工大学的研究者开源了一套统一的自监督学习代码库 OpenSelfSup。    前言   近几个月来自监督表征学习领域获得了显著突破,特别是随着 Rotation Prediction、DeepCluster、MoCo、SimCLR 等简单有效的方法的诞生,自监督表征学习大有超越有监督表征学习的趋势。   然而,做这个领域的研究者都深有感触:1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进;2)评价方案不统一,不同的方法难以在公平环境下对比;3)动辄百万千万的训练数据量,训练效率是个大问题。   针对这些问题,香港中文大学多媒体实验室(MMLab)和南洋理工大学的研究者最近开源了一套统一的自监督学习代码库:OpenSelfSup。   开源地址: https://github.com/open-mmlab/OpenSelfSup    OpenSelfSup    统一的代码框架和模块化设计   OpenSelfSup 使用 PyTorch 实现,支持基于分类、重建、聚类、memory bank、contrastive learning 的多种自监督学习框架,目前收录了 Relative Location、Rotation Prediction

最新进展概述:澄清式提问辅助理解信息检索中的用户意图

≡放荡痞女 提交于 2020-10-06 10:07:48
©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 用户使用搜索引擎的过程中,通常很难用单一的查询表达复杂的信息需求。在真实应用的过程中,用户需要根据当前搜索引擎的展示结果反复修改查询词。这一过程极大地增加了用户搜索的负担,影响了用户的搜索体验。 近期,澄清式提问(Asking Clarifying Questions)的提出为该问题的解决提供了新的思路。该方法根据用户给出的查询提出相关问题,从而更好地理解用户意图,展示更符合用户需求的排序结果,提高用户对搜索过程的满意度。本文将概述该方向的一些最新研究进展。 从任务提出到简单实现 论文标题: Asking Clarifying Questions in Open-Domain Information-Seeking Conversations 论文来源: SIGIR 2019 论文链接: https://arxiv.org/abs/1907.06554 本文发表于 SIGIR 2019,该论文首先提出了“通过澄清式提问理解信息检索中的用户意图”的任务;然后针对已有的查询,根据搜索引擎的查询词建议或已知的不同用户意图,人工构造澄清式问题和答案;在此基础上提出了根据查询和历史问答记录检索并选择当前问题的深度学习模型 BERT-LeaQuR 和 NeuQS。 1.1 任务流程

文本挖掘之情感分析(一)

做~自己de王妃 提交于 2020-10-05 08:17:47
一、文本挖掘 文本挖掘则是对文本进行处理,从中挖掘出来文本中有用的信息和关键的规则,在文本挖掘领域应用最往广泛的是对文本进行分类和聚类,其挖掘的方法分为无监督学习和监督学习。文本挖掘还可以划分为7大类:关键词提取、文本摘要、文本主题模型、文本聚类、文本分类、观点提取、情感分析。 关键词提取 :对长文本的内容进行分析,输出能够反映文本关键信息的关键词。 文本摘要 :许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。 文本聚类 :主要是对未标注的文本进行标注,常见的有 K均值聚类和层次聚类。 文本分类 :文本分类使用监督学习的方法,以对未知数据的分类进行预测的机器学习方法。 文本主题模型 LDA :LDA( Latent Dirichlet Allocation )是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,该模型可以用于获取语料的主题提取和对不同类别的文档进行分类。 观点抽取 :对文本(主要针对评论)进行分析,抽取出核心观点,并判断极性(正负面),主要用于电商、美食、酒店、汽车等评论进行分析。 情感分析 :对文本进行情感倾向判断,将文本情感分为正向、负向、中性。用于口碑分析、话题监控、舆情分析。 因为自己的论文写的是关于情感分析方面的内容,因此打算接下来主要写情感分析系列的内容

AI研习丨专题:单图像深度学习去雨研究的最新进展文

孤街醉人 提交于 2020-10-05 06:36:11
   摘 要   单图像去雨是图像复原的重要研究方向之一。单图像深度学习去雨方法中,全监督去雨方法模型的输入均为配对数据,因此尽管利用大量的合成配对数据取得了很好的效果,但处理真实雨图时会产生性能退化;此外无法利用真实世界中的大量无标签雨图,因此无法很好地解决真实图像去雨任务。鉴于此,基于部分或零配对数据的无监督/ 半监督去雨算法则体现出更大的优势。本文将重点围绕无监督与半监督单图像深度学习去雨研究的最新进展进行简要回顾及分析,并力图为后续的研究提供一些思路。    关 键 字   图像复原;单图像去雨;无监督去雨;半监督去雨;深度表示学习   图像复原是利用退化过程的某些先验知识建立相应的数学模型,通过求解逆问题对原始图像进行估计进而复原被退化的图像。但在退化过程中,噪声和干扰因素同时存在,给图像的复原带来了诸多不确定性和挑战。随着深度学习研究热潮的到来,图像复原仍然是目前计算机视觉领域的重要方向,例如图像去雨、图像去雾和图像去模糊等,是诸多高层视觉任务的重要预处理步骤。雨是最常见的动态恶劣天气,因此本文重点探讨图像去雨任务。特别地,图像去雨分为静态单图像去雨和动态序列图像(即视频)去雨。和视频去雨相比,单图像去雨由于缺乏时域信息因而更具挑战性。图1 展示了部分合成的雨图像和真实的雨图像的对比,从中可见真实雨图中的雨纹信息是更加复杂的、多样化的和多方向的