Semantic

IJCAI2020|Mucko:面向视觉问答的多层次跨模态知识推理模型

你说的曾经没有我的故事 提交于 2020-08-16 06:52:07
     本文介绍的是 IJCAI-2020论文《Mucko: Multi-LayerCross-Modal Knowledge Reasoning for Fact-based Visual Question Answering》,该论文由中科院信工所于静老师指导,由来自中科院信工所、微软亚洲研究院、阿德莱德大学的作者(朱梓豪,于静,汪瑜静,孙雅静,胡玥,吴琦)合作完成。    作 者 | 朱梓豪    编辑 | 丛 末      代码链接:https://github.com/astro-zihao/mucko    1    介绍   视觉问答是一个融合了计算机视觉和自然语言处理的跨领域研究方向,输入一张图像和与这个图像有关的自然语言问题,视觉问答算法的目标是生成一个自然语言答案作为输出。最近一些相关工作,仅仅通过分析图像中的视觉内容和问题,在一些数据集上就已经得到了很好的结果。但是,当一个问题不仅仅需要分析视觉内容,还需要依赖额外的知识才能回答时,这些模型就无能为力了。   例如在图一中,问题是“图片中红色的圆柱体可以用来做什么”?模型首先需要在视觉上定位出“红色的圆柱体”在哪,还需要在语义上将“红色的圆柱体”识别为“消防栓”,而且还需要连接到“消防栓可以用来灭火”这条外部知识。因此,如果要建立一个通用的视觉问答模型,学习如何从视觉、语义

换脸新潮流:BIGO风靡全球的人脸风格迁移技术

三世轮回 提交于 2020-08-16 01:48:50
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 引 1974年,我国的考古学家在陕西省西安市发掘出了兵马俑,并被其神态各异惟妙惟肖的面部表情所震撼。同年,一篇名为《A Parametric Model for Human Faces》论文迈出了人脸属性编辑这一领域的第一步。而半个世纪后的今天,BIGO自主研发的FaceMagic的换脸技术让你随心所欲地化身为兵马俑,世界名画,或者电影里的超级英雄, 产品一推出即风靡全球。 BIGO为了把这项创新技术带给全球用户,研发人员克服了各种挑战。技术挑战主要来源于三个方面:第一是人脸特征迁移技术,我们创新性地尝试把风格迁移的思路用于人脸特征迁移中,克服了当时主流的deep fake、 3D方案等技术的不足。 第二是全球化问题,因为BIGO用户来源于全球各地,为了解决不同人种的肤色、五官结构的差异问题,我们构建了千万量级的全球化的人脸数据集,极大地涵盖肤色、性别、年龄等差异性,力求把全球每一位用户的效果做到最佳 。第三是多属性,多场景的效果优化,我们在不断优化网络结构的同时尝试人脸属性、人脸姿态等约束,并大力提升大规模数据的训练效率,充分挖掘数据的多样性特征,把换脸效果做到更加鲁棒、真实、自然。FaceMagic仍在吸引越来越多人的参与,自上线以来,全球生产总量接近1亿。功能推出后

28篇论文、6大主题带你一览CVPR2020研究趋势

那年仲夏 提交于 2020-08-14 01:08:16
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

Pytorch深度学习实战教程(二):UNet语义分割网络

时光怂恿深爱的人放手 提交于 2020-08-13 23:06:12
本文 GitHub Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善。 一、前言 本文属于Pytorch深度学习语义分割系列教程。 该系列文章的内容有: Pytorch的基本使用 语义分割算法讲解 如果不了解语义分割原理以及开发环境的搭建,请看该系列教程的上一篇文章《 Pytorch深度学习实战教程(一):语义分割基础与环境搭建 》。 本文的开发环境采用上一篇文章搭建好的Windows环境,环境情况如下: 开发环境:Windows 开发语言:Python3.7.4 框架版本:Pytorch1.3.0 CUDA:10.2 cuDNN:7.6.0 本文主要讲解 UNet网络结构 ,以及 相应代码的代码编写 。 PS:文中出现的所有代码,均可在我的github上下载,欢迎Follow、Star: 点击查看 二、UNet网络结构 在语义分割领域,基于深度学习的语义分割算法开山之作是FCN(Fully Convolutional Networks for Semantic Segmentation),而UNet是遵循FCN的原理,并进行了相应的改进,使其适应小样本的简单分割问题。 UNet论文地址: 点击查看 研究一个深度学习算法,可以先看网络结构,看懂网络结构后,再Loss计算方法、训练方法等

28篇论文、6 大主题带你一览 CVPR 2020 研究趋势

為{幸葍}努か 提交于 2020-08-11 22:50:14
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

图像语义分割最新文章汇总(附论文链接和公开代码)

谁说胖子不能爱 提交于 2020-08-11 21:31:05
呐,我也是做图像分割的啦,最近看到有大佬整理了图像分割方面最新的论文,觉得很有帮助,就转载过来了,感觉又有很多要学的内容了。 Semantic Segmentation Adaptive Affinity Field for Semantic Segmentation – ECCV2018 [Paper] [HomePage] Pyramid Attention Network for Semantic Segmentation – 2018 – Face++ [Paper] Autofocus Layer for Semantic Segmentation – 2018 [ Paper [Code-PyTorch] ExFuse: Enhancing Feature Fusion for Semantic Segmentation – 2018 – Face++ [Paper] DifNet: Semantic Segmentation by Diffusion Networks – 2018 [Paper] Convolutional CRFs for Semantic Segmentation – 2018 [Paper] [Code-PyTorch] ContextNet: Exploring Context and Detail for Semantic

JavaScript引入方式

有些话、适合烂在心里 提交于 2020-08-11 17:57:11
写在行内 <input type="button" value="按钮" onclick="alert('Hello World')" /> 写在script标签中 <head> <script type="text/javascript"> alert('Hello World!'); </script> </head> 注意: type属性不是必须的,如果没有指定该属性,则其默认值仍为 text/javascript 记住在JavaScript代码中任何地方都不要在代码中出现"</script>"字符,因为当浏览器遇到"</script>"标签时就会认为那是结束标签,通过转义字符"\"解决这个问题例如 </script> script的位置:传统的做法是把所有的<script>元素都放在<head>元素中,这样的做法目的就是把所有的外部文件css和JavaScript文件的引用都放在相同的地方,可是在文档<head>中包含所有的文件,意味着JavaScript代码都被下载,解析完成以后,才能开始呈现页面内容,对于要执行很多JavaScript代码的网页来说,这样无疑会导致浏览器在呈现页面时出现延迟期间的浏览器窗口将是一片空白, ,为了比年这个问题,现代web应用程序一般都会把JavaScript引用放在<body>元素中页面内容的后面 </body>的前面 写在外部js文件中

深度学习中IU、IoU(Intersection over Union)的概念理解以及python程序实现

China☆狼群 提交于 2020-08-11 17:50:49
from: 深度学习中IU、IoU(Intersection over Union)的概念理解以及python程序实现 IoU(Intersection over Union) Intersection over Union是一种测量在特定数据集中检测相应物体准确度的一个标准。我们可以在很多物体检测挑战中,例如PASCAL VOC challenge中看多很多使用该标准的做法。 通常我们在 HOG + Linear SVM object detectors 和 Convolutional Neural Network detectors (R-CNN, Faster R-CNN, YOLO, etc.)中使用该方法检测其性能。注意,这个测量方法和你在任务中使用的物体检测算法没有关系。 IoU是一个简单的测量标准,只要是在输出中得出一个预测范围(bounding boxex)的任务都可以用IoU来进行测量。为了可以使IoU用于测量任意大小形状的物体检测,我们需要: 1、 ground-truth bounding boxes(人为在训练集图像中标出要检测物体的大概范围); 2、我们的算法得出的结果范围。 也就是说,这个标准用于测量真实和预测之间的相关度,相关度越高,该值越高。 如下图: 下图展示了ground-truth和predicted的结果,绿色标线是人为标记的正确结果

任务型对话(一)—— NLU/SLU(意图识别和槽值填充)

我的梦境 提交于 2020-08-10 05:46:32
1,概述   任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品。通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下:        整个pipline由五个模块组成:语音识别;自然语言理解;对话管理;自然语言生成;语音合成。现在越来越多的产品还融入了知识库,主要是在对话管理模块引入。在这里除了语音识别和语音合成模块不属于自然语言处理范畴且属于可选项之外,其他的三个模块都是必要的。   自然语言理解(NLU):主要作用是对用户输入的句子或者语音识别的结果进行处理,提取用户的对话意图以及用户所传递的信息。   对话管理(DM):对话管理分为两个子模块,对话状态追踪(DST)和对话策略学习(DPL),其主要作用是根据NLU的结果来更新系统的状态,并生成相应的系统动作。   自然语言生成(NLG):将DM输出的系统动作文本化,用文本的形式将系统的动作表达出来。   我们接下来将会详细讨论这四个模块(NLU,DST,DPL,NLG)。 2 意图识别和槽值填充   举一个简单的例子,以一个询问天气的任务型对话为例,根据专家知识,我们会预先定义该任务的意图和相应的槽,这句话该怎么理解呢?   比如用户输入:“今天深圳的天气怎么样?”,此时用户所表达的是查询天气,在这里我们可以认为查询天气就是一种意图,那具体查询哪里的天气,哪一天的天气

巧用 display: contents 增强页面语义

烂漫一生 提交于 2020-08-09 20:36:57
display: contents 是一个比较陌生的属性,虽然属于 display 这个基本上是最常见的 CSS 属性,但是 contents 这个取值基本不会用到。但是它早在 2016 年就已经得到了 Firefox 的支持。 本文将深入一下这个有意思的属性值。 基本用法 根据 W3C 对 display: contents 的定义。 The element itself does not generate any boxes, but its children and pseudo-elements still generate boxes and text runs as normal. For the purposes of box generation and layout, the element must be treated as if it had been replaced in the element tree by its contents (including both its source-document children and its pseudo-elements, such as ::before and ::after pseudo-elements, which are generated before/after the element