coco

英伟达开源「Imaginaire」:九大图像及视频合成方法,你学fei了吗?

允我心安 提交于 2020-11-13 03:29:10
  机器之心报道    作者:蛋酱、小舟    图像 / 视频合成领域的集大成者,就在这一篇了。   图像和视频等视觉数据的生成是机器学习和计算机视觉领域重要的研究问题之一。近几年,英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型。   近日,英伟达又开源了一个新的 PyTorch 库「Imaginaire」,共包含 9 种英伟达开发的图像及视频合成方法。      项目地址:https://github.com/NVlabs/imaginaire   这九种方法分别为:   有监督的图像到图像转换   1、pix2pixHD   2、SPADE/GauGAN   无监督的图像到图像转换   1、UNIT   2、MUNIT   3、FUNIT   4、COCO-FUNIT   视频到视频转换   1、vid2vid   2、fs-vid2vid   3、wc-vid2vid    pix2pixHD   「pix2pixHD」是 pix2pix 的升级版本,具备高分辨率图像和语义处理功能,主要解决了深度图像合成编辑中的质量及分辨率问题。      项目主页:https://tcwang0509.github.io/pix2pixHD/      论文链接:https://arxiv.org/pdf/1711.11585.pdf   在这篇论文中,来自英伟达和 UC

AI香水来了,你会买吗?

房东的猫 提交于 2020-11-08 16:22:43
文 | 黄康瑄 来源 | 智能相对论(ID:aixdlun) “A woman who doesn’t wear perfume has no future.”—from Coco Chanel 作为一项历史悠久的定制艺术品,香水在千百年来受到无数人的欢迎。专业调香师更是需要经过数十年的学习和训练,才能习得开发香水这项宝贵技能。近年,在图像、影像及语音识别等领域大放异彩的人工智能也开始逐渐渗透到香水行业。有趣的是, AI制作香水并不依赖嗅觉, 其原理类似于人工智能作曲和写作,通过大量分析香水的配方成分与销售资料,运用机率统计与排列组合等大数据运算,帮助调香师更有效率地调配出符合消费者喜好的配方。 AI香水=现有香料+配方+销售资料 2018年,全球知名的香精生产公司Symrise与IBM Research合作开发了一款名为Philyra的AI香水调试系统,其命名灵感来自希腊神话中的香水女神。 Philyra能够通过分析现有的芳香配方,将其成分与销售地区、客户年龄等数据进行匹配,调制出最符合目标客户喜好的香水。 目前,香水行业大约拥有1300种香料,包含合成香料,外加花、苔藓、香草以及水果的提取物等种类。客户群涵盖Estée Lauder、AVON、Coty和Donna Karan等著名香水公司的Symrise,向IBM提供了一套包含各种物质及对应组合构成的

目标检测之FPN网络详解

ε祈祈猫儿з 提交于 2020-11-06 04:48:01
公众号关注 “ 视学算法 ” 设为 “ 星标 ”,消息即可送达! 来自 | CSDN博客 作者 | kk123k 编辑 | 深度学习这件小事公众号 本文仅作学术交流,如有侵权,请联系后台删除 特征图金字塔网络FPN(Feature Pyramid Networks)是2017年提出的一种网络,FPN主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小物体检测的性能。 低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本文FPN不一样的地方在于预测是在不同特征层独立进行的。 一、各种网络结构对比 1、通常的CNN网络结构如下图所示 图1 上图网络是自底向上卷积,然后使用最后一层特征图进行预测,像SPP-Net,Fast R-CNN,Faster R-CNN就是采用这种方式,即仅采用网络最后一层的特征。 以VGG16为例子,假如feat_stride=16,表示若原图大小是1000*600,经过网络后最深一层的特征图大小是60*40,可理解为特征图上一像素点映射原图中一个16*16的区域;那原图中有一个小于16*16大小的小物体,是不是就会被忽略掉,检测不到了呢?

【计算机视觉发展史】:目标检测二十年

纵饮孤独 提交于 2020-11-02 06:20:56
↑↑↑点击上方 蓝字 ,回复 资料 ,10个G的惊喜 来源丨 DeepBlue深兰科技 作者丨深兰科学院李亦超 编辑丨极市平台 以2014年为分水岭,作者将过去二十年的目标检测发展进程分为两个阶段:2014年之前的传统目标检测,以及之后基于深度学习的目标检测。接下来,文章列举了二十年来目标检测领域的关键技术,思路非常清晰。 过去二十年中与 “ 目标检测 ” 相关的出版物数量的增长 二十年 在计算机视觉领域中有几个基本的任务:图像分类[3]、目标检测[4]、实例分割[5]及语义分割[6],其中目标检测作为计算机视觉中最基本的任务在近年来引起了广泛关注。某种意义上,它在过去二十年内的发展也是计算机视觉发展史的缩影。如果我们将今天基于深度学习的目标检测技术比作一场“热兵器革命”,那么 回顾20年前的技术 时即可窥探“冷兵器”时代的智慧。 目标检测是一项计算机视觉任务。正如视觉对于人的作用一样,目标检测旨在解决计算机视觉应用中两个最基本的问题: 1. 该物体是什么?2. 该物体在哪里? 当然,聪明的人可能会立即想到第三个问题: “该物体在干什么?” 这即是更进一步的逻辑及认知推理,这一点在近年来的目标检测技术中也越来越被重视。不管怎样,作为计算机视觉的基本任务,它也是其他计算机视觉任务的主要成分,如实例分割、图像字幕、目标跟踪等。 从应用的角度来看,目标检测可以被分为两个研究主题 :“

继往开来!目标检测二十年技术综述

纵然是瞬间 提交于 2020-11-02 06:20:34
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 本文经我爱计算机视觉(微信公众号:aicvml) 授权转载,禁止二次转载 计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶、视频监控、机器人视觉等,而被研究学者广泛关注。 几天前,arXiv新出一篇目标检测文献《Object Detection in 20 Years: A Survey》对该领域20年来出现的技术进行了综述,这是一篇投向PAMI的论文,作者们review了400+篇论文,总结了目标检测发展的里程碑算法和state-of-the-art,并且难能可贵的对算法流程各个技术模块的演进也进行了说明,还深入到目标检测的特定领域如人脸检测、行人检测等进行了总结,最后列举了未来可能的发展方向。 温故而知新,非常值得参考! 作者信息: 该文作者来自美国密歇根大学、北京航空航天大学、滴滴出行。 下图是作者在谷歌学术检索目标检测相关关键字返回的历年文献数量,可见该领域20年来越来越受到学术界的关注。2018年有将近1200篇相关文献发表。 目标检测路线图 作者将目标检测近20年来的里程碑算法画在时间轴上,如下: 可见作者将算法大致分为2012年之前的传统检测方法与2012年之后出现的基于深度学习的检测方法。 传统方法比如我们所熟知的V-J检测、HOG检测、DPM算法。 深度学习方法截然不同的分为两条技术路径

继往开来!目标检测二十年技术综述

孤街浪徒 提交于 2020-11-02 06:20:15
点击上方“ AI算法与图像处理 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶、视频监控、机器人视觉等,而被研究学者广泛关注。 几天前,arXiv新出一篇目标检测文献《Object Detection in 20 Years: A Survey》对该领域20年来出现的技术进行了综述,这是一篇投向PAMI的论文,作者们review了400+篇论文,总结了目标检测发展的里程碑算法和state-of-the-art,并且难能可贵的对算法流程各个技术模块的演进也进行了说明,还深入到目标检测的特定领域如人脸检测、行人检测等进行了总结,最后列举了未来可能的发展方向。 温故而知新,非常值得参考! 作者信息: 该文作者来自美国密歇根大学、北京航空航天大学、滴滴出行。 下图是作者在谷歌学术检索目标检测相关关键字返回的历年文献数量,可见该领域20年来越来越受到学术界的关注。2018年有将近1200篇相关文献发表。 目标检测路线图 作者将目标检测近20年来的里程碑算法画在时间轴上,如下: 可见作者将算法大致分为2012年之前的传统检测方法与2012年之后出现的基于深度学习的检测方法。 传统方法比如我们所熟知的V-J检测、HOG检测、DPM算法。 深度学习方法截然不同的分为两条技术路径:单阶段检测算法与两阶段检测算法。

综述:目标检测二十年

随声附和 提交于 2020-11-02 05:41:38
↑ 点击 蓝字 关注视学算法 作者丨深兰科学院李亦超 来源丨 DeepBlue深兰科技 编辑丨极市平台 极市导读 以2014年为分水岭,作者将过去二十年的目标检测发展进程分为两个阶段:2014年之前的传统目标检测,以及之后基于深度学习的目标检测。接下来,文章列举了二十年来目标检测领域的关键技术,思路非常清晰。 过去二十年中与 “ 目标检测 ” 相关的出版物数量的增长 二十年 在计算机视觉领域中有几个基本的任务:图像分类[3]、目标检测[4]、实例分割[5]及语义分割[6],其中目标检测作为计算机视觉中最基本的任务在近年来引起了广泛关注。某种意义上,它在过去二十年内的发展也是计算机视觉发展史的缩影。如果我们将今天基于深度学习的目标检测技术比作一场“热兵器革命”,那么 回顾20年前的技术 时即可窥探“冷兵器”时代的智慧。 目标检测是一项计算机视觉任务。正如视觉对于人的作用一样,目标检测旨在解决计算机视觉应用中两个最基本的问题: 1. 该物体是什么?2. 该物体在哪里? 当然,聪明的人可能会立即想到第三个问题: “该物体在干什么?” 这即是更进一步的逻辑及认知推理,这一点在近年来的目标检测技术中也越来越被重视。不管怎样,作为计算机视觉的基本任务,它也是其他计算机视觉任务的主要成分,如实例分割、图像字幕、目标跟踪等。 从应用的角度来看,目标检测可以被分为两个研究主题 :“ 通用目标检测

目标检测综述

独自空忆成欢 提交于 2020-10-28 16:43:58
目录 1 INTRODUCTION 2 OBJECT DETECTION IN 20 YEARS 2.1 A Road Map of Object Detection 2.1.1 Milestones: Traditional Detectors 2.1.2 Milestones: CNN based Two-stage Detectors 2.1.3 Milestones: CNN based One-stage Detectors 2.2 Object Detection Datasets and Metrics 2.2.1 Metrics 2.3 Technical Evolution in Object Detection 2.3.1 Early Time’s Dark Knowledge 2.3.2 Technical Evolution of Multi-Scale Detection 2.3.3 Technical Evolution of Bounding Box Regression 2.3.4 Technical Evolution of Context Priming 2.3.5 Technical Evolution of Non-Maximum Suppression 2.3.6 Technical Evolution of Hard Negative

秋天的第一杯奶茶该买哪家?Python 爬取网红奶茶店告诉你!

人走茶凉 提交于 2020-10-28 12:44:56
点击上方“ 印象python ”,选择“ 星标 ”公众号 重磅干货,第一时间送达! 现在越来越多年轻人手里的那一杯快乐肥宅水,从可乐换成了奶茶。上世纪80年的奶茶并不像现在的奶茶口味繁多,配料多样,而大部分80、90后童年的奶茶只有一个名字,那就是“台湾珍珠奶茶”。只需要一间几平方米的小店,一台手动封杯口机器,几罐不同口味的奶茶粉末,就可以开一家奶茶店。 奶茶起源于中国北方游牧民族,知名于中国台湾。早期的台湾奶茶品牌,如CoCo、50岚、老虎茶等等。前两家CoCo和50岚(现在的1点点)都已经成为中国大陆大型的连锁奶茶店。随着奶茶越来越受大众喜爱,涌现出更多的本土奶茶品牌,如蜜雪冰城、益禾堂。再到如今的网红时代,由于不同奶茶品牌的口味差异不大,如何更好地营销自己的奶茶品牌,让消费者能从众多奶茶中翻到自己的牌子,变得更加重要。例如奈雪的茶主打高端路线,奶茶均价在40元左右;喜茶主打品牌差异化,注重茶饮口感的同时营造店面排长龙的“时尚文化”。 图1 奶茶发展史 1-数据获取 本文数据来源于美团网,抓取了12个热门城市的奶茶店名单,城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。共计68614家奶茶店,3万多个奶茶品牌。在构建抓取URL时,需要注意将城市的维度具体到城市商圈,因为每个URL最多只显示32页内容,保证抓取每个城市时的数据量是准确的。 #

【技术综述】多标签图像分类综述

自古美人都是妖i 提交于 2020-10-28 06:49:29
图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大家了解多标签图像分类这一方向,了解更具难度的图像分类。 作者 | 郭冰洋 编辑 | 言有三 1 简介 随着科学技术的进步与发展,图像作为信息传播的重要媒介,在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究,并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视,也促使计算机视觉领域迎来了蓬勃发展的黄金时代。 作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。经过近30年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。 根据分类任务的目标不同,可以将图像分类任务划分成两部分:(1)单标签图像分类;(2)多标签图像分类。 单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量,又可以将单标签图像分类划分成二分类、多类别分类。如下图所示,可以将该图的标签记为海洋,通过单标签图像分类我们可以判定该图像中是否含有海洋。 然而,现实生活中的图片中往往包含多个类别的物体,这也更加符合人的认知习惯