Faster R-CNN

Temporal Action Detection(时序动作检测)之R-C3D论文详解

ⅰ亾dé卋堺 提交于 2020-11-20 07:30:05
  本篇文章是基于《R-C3D:Region Convolutional 3D Network for Temporal Activity Detection》的详解,欢迎批评指正。     动作检测(Action Detection)主要用于给分割好的视频片段分类,但在实际中视频多是未分割的长视频,对于长视频的分割并且分类任务叫做时序动作检测(Temporal Action Detection)。给定一段未分割的长视频,算法需要检测视频中的动作片段,包括开始时间、结束时间和动作类别。一段视频可以包含一个或多个相同或不同的动作片段。   Action Recognition和Temporal Action Detection之间的关系和Image Classification和Object Detection之间的关系很像。基于Image Classification产生了例如VGG等网络模型,这些模型在Object Detection中提取目标特征提供很大帮助。同样,Action Recognition相关的模型(例如C3D等)也被广泛用于Temporal Action Detection中提取相关动作特征。   由于Temporal Action Detection和Object Detection存在相似性,很多Temporal Action

机器视觉领军学者沈春华,获澳大利亚科研终身成就奖!专访

十年热恋 提交于 2020-10-31 09:57:45
  凭一己之力将澳大利亚机器学习研究院拉至全球排名第四;GitHub 1400 多颗 Star、并用于 Top 级手机厂商的视觉处理;这就是程序员口中的 “CV 大牛” 沈春华团队的“战绩”。   目前,沈春华在澳大利亚阿德莱德大学担任计算机科学教授。这位本科毕业于南京大学、后在阿德莱德大学获得博士学位的中国科学家,其主要研究机器学习和计算机视觉,而计算机视觉的终极目标是建立一个具有人类表现的视觉系统。      图 | 2019 年沈春华回国参会   2012 年,沈春华获得澳大利亚研究委员会的未来学者称号。除教职之外,他还是澳大利亚研究委员会机器人视觉卓越中心的科研负责人。从阿德莱德大学网站获悉,沈春华上月被列为澳大利亚科研终身成就奖,是工程与计算机类奖项的 5 名获选人之一(https://specialreports.theaustralian.com.au/1540291/9/)。   计算机排名网站 CSRanking 显示,沈春华是过去 10 年间在计算机视觉方向 3 大顶级会议发表论文最多的在澳学者。他的科研成果和产出是阿德莱德大学下属的澳大利亚机器学习研究院 (Australian Institute for Machine Learning,AIML) 能在 CSRanking 上排名世界第 4 的主要原因之一。   鉴于澳大利亚机器学习研究院的国际声誉

计算机视觉目标检测算法综述

主宰稳场 提交于 2020-10-28 15:09:05
计算机视觉目标检测算法综述 版权声明:转载请注明出处 https://blog.csdn.net/qq_16525279/article/details/81698684 传统目标检测三步走:区域选择、特征提取、分类回归 遇到的问题: 1.区域选择的策略效果差、时间复杂度高 2.手工提取的特征鲁棒性较差 深度学习时代目标检测算法的发展: Two-Stage: R-CNN 论文地址: Rich feature hierarchies for accurate object detection and semantic segmentation 地位:是用卷积神经网络(CNN)做目标检测的第一篇,意义影响深远。 核心思想: 1.区域选择不再使用滑窗,而是采用启发式候选区域生成算法(Selective Search) 2.特征提取也从手工变成利用CNN自动提取特征,增强了鲁棒性。 流程步骤: 1.使用Selective Search算法从待检测图像中提取2000个左右的区域候选框 2.把所有侯选框缩放成固定大小(原文采用227×227) 3.使用CNN(有5个卷积层和2个全连接层)提取候选区域图像的特征,得到固定长度的特征向量 4.将特征向量输入到SVM分类器,判别输入类别;送入到 全连接网络 以回归的方式精修候选框 优点: 1.速度 传统的区域选择使用滑窗,每滑一个窗口检测一次

ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

余生长醉 提交于 2020-10-24 06:15:43
论文《ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks》的完整翻译,如有翻译不当之处敬请评论指出,蟹蟹!(2019-10-17) 作者:Qilong Wang1, Banggu Wu1, Pengfei Zhu1, Peihua Li2, Wangmeng Zuo3, Qinghua Hu1 发表:暂未知 代码:https://github.com/BangguWu/ECANet 摘要 通道注意力在改善深度卷积神经网络(CNNs)性能方面具有巨大的潜力。然而,大多数现有的方法致力于开发更复杂的注意力模块,以获得更好的性能,不可避免地增加了计算负担。为了克服性能与复杂度权衡的悖论,本文尝试研究一种用于提高深度CNNs性能的超轻量级注意模块。特别地,我们提出了一个有效的通道注意(ECA)模块,它只涉及k (k<=9)参数,但带来了明显的性能增益。通过回顾SENet中的通道注意模块,我们实证地证明了避免降维和适当的跨通道交互对于学习有效的通道注意是重要的。因此,我们提出了一种无降维的局部跨通道交互策略,该策略可以通过快速一维卷积有效地实现。此外,我们开发了一个通道维数的函数来自适应地确定一维卷积的核大小,它代表了局域交叉通道相互作用的覆盖范围

旷世提出类别正则化的域自适应目标检测模型,缓解场景多样的痛点 | CVPR 2020

末鹿安然 提交于 2020-10-07 18:58:17
> 论文基于DA Faster R-CNN系列提出类别正则化框架,充分利用多标签分类的弱定位能力以及图片级预测和实例级预测的类一致性,从实验结果来看,类该方法能够很好地提升DA Faster R-CNN系列的性能   来源:晓飞的算法工程笔记 公众号 论文: Exploring Categorical Regularization for Domain Adaptive Object Detection 论文地址: https://arxiv.org/pdf/2003.09152.pdf 论文代码: https://github.com/Megvii-Nanjing/CR-DA-DET Introduction   由于标注成本大,在训练好检测算法后,面对差异较大的新场景(类别不变),若想获取大量的带标注图片进行再训练是很不方便的。对于这种情况,无监督的域自适应方法能够灵活地自适应新场景,从包含丰富标注信息的源域转移到无标注的目标域。其中,域自适应方法中比较有代表性的是Donamin Adaptive(DA) Faster R-CNN系列,利用对抗训练来对齐图片和实例的分布,使得模型能够做到域不变性,具体可以看上一篇介绍。   但是这些方法大都把无法转化的背景内容也进行了对齐,而且在实例对齐时,没有从包含较多低质量的proposal集合中识别出难样本。为了解决上面的问题

Learning Semantic Concepts and Order for Image and Sentence Matching笔记

半世苍凉 提交于 2020-10-07 09:54:14
SCO模型阅读笔记 论文:Learning Semantic Concepts and Order for Image and Sentence Matching 发表会议:CVPR2018 作者: 一、为什么看? 好多关于图像-文本检索的文章,但是大多数都忽略了 图像的语义顺序 ,当语义顺序被忽略时,会造成检索不准确,图像和文本的语义完全相反。 看点 : 图像的语义顺序如何构建 应用 : 于跨模态图像-文本检索 二、论文思路 图像语义之间存在差距,特别是像素级图像缺乏语义信息。本文提出语义增强图像和句子匹配模型,来通过学习语义概念和用一个正确的顺序语义顺序提高图像表示。 给定一张图像,用多区域多标签CNN预测语义概念,包括对象、属性、动作; 由于区域没有顺序,如何给这些语义概念排序,将全局上下文和语义概念融合; 对应的句子用LSTM生成,并且对融合后的句子进行监督,对比相似度。 疑问? 为什么要提取语义概念? 语义概念是图像与句子匹配的基本内容,像素级无法完成; 为什么不直接用图像描述? 图像描述和匹配是有区别的,图像匹配重点实在细粒度上找最相似的。图像描述体现在语义上,它不一定能够捕获到图像的细节。 为什么不从语义概念上直接学习语义顺序? 不同的顺序就有不同的意义,语义上有意义但可能是错误的顺序。 三、具体工作 句子表示学习: 一个完整的句子包括名词、动词和形容词

CVPR2020|解决目标检测长尾问题简单方法:BalancedGroupSoftmax

我与影子孤独终老i 提交于 2020-10-02 17:10:05
     本文解读的是 CVPR 2020 Oral 论文《Overcoming Classifier Imbalance for Long-tail Object Detection with Bbalanc ed Group Softmax》,论文作者来自中科院、新加坡国立大学。该论文解读首发于“AI算法修炼营”。    作 者 | SFXiang    编辑 | 丛 末      论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Li_Overcoming_Classifier_Imbalance_for_Long-Tail_Object_Detection_With_Balanced_Group_CVPR_2020_paper.pdf   代码地址:https://github.com/FishYuLi/BalancedGroupSoftmax   视频讲解地址:https://www.youtube.com/watch?v=ikdVuadfUo8   论文的主要思想是提出了长尾分布目标检测器性能下降主要原因是与类别数量正相关,于是通过分组平均分配类别数的思想,提出了Balanced Group Softmax,这是一个简单的思想,效果很不错,大家可以多尝试。    1    前言  

###好好好##BERT新转变:面向视觉基础进行预训练| NeurIPS 2019论文解读

£可爱£侵袭症+ 提交于 2020-10-01 23:47:14
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作者: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee(佐治亚理工学院、俄勒冈州立大学、Facebook AI Research) 点此进入 “论文地址” 摘要 本文提出ViLBERT(Vision-and-Language BERT),该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型,在各自的流中处理图像和文本输入,这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练,再将其迁移应用到多个视觉-语言任务:视觉问答,视觉常识推理,指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。 ViLBERT代表了一种转向:从将学习视觉和语言之间的基础知识仅作为任务训练的一部分,转向将视觉基础知识作为一种可预训练和可迁移的能力。 介绍 视觉理解任务包括通过在图像

###好好好####多模态中的BERT

百般思念 提交于 2020-10-01 22:33:42
image BERT自问世以来,几乎刷新了各种NLP的任务榜,基于BERT的变种也层出不穷,在很多任务里都可以看到其身影。大浪淘沙,沉者为金,回想第一次看到BERT的论文时,确实不曾想其也能对工业界产生极大的影响。 本文尝试梳理今年BERT在多模态任务(主要涉及视觉和文本模态)上的一些工作,尝试比较各工作的主要思路以及做法上的区别,因此不会过多的涉及细节。总的来看,众多工作的主体模型大同小异,均使用Transformer,从表1(引用自VL-BERT论文)可以对各工作之间的相似和不同之处有个整体的认识。 image 可以看到,各方案之间的差异基本在于模态融合方式、预训练任务、以及下游任务微调,下文也将主要从这几个维度展开介绍和对比(排名不分先后)。 VideoBert image VideoBert主体采用单Transformer同时对文本token和视频片段进行模态表示和融合。与BERT区别在于把原来的句子对是否匹配(是否为下一句),换成了句子视频是否匹配任务。同时对于视频片段帧进行随机的MASK,预测对应的特征向量,文中叫visual words(通过预训练的视觉模型抽取得来,如S3D,然后聚类得到相应特征向量的id),对应于BERT的masked语言模型。 CBT image 和VideoBert不同在于,视频输入和文本输入分成了两支。视频输入经过S3D网络得到视觉特征序列

CVPR论文阅读:《D2Det: Towards High Quality Object Detection and Instance Segmentation》

十年热恋 提交于 2020-09-28 17:30:17
CVPR论文阅读笔记:《D2Det: Towards High Quality Object Detection and Instance Segmentation》 创新点 摘要撰写 1 我们的方法(第三部分) 1.1 稠密局部回归 1.2 区别 Rol Pooling(Discriminative RoI Pooling) 1.3 实例分割 2 实验 2.1 数据集和实现细节 2.2 MS COCO 数据集 2.3 UAVDT 数据集 3 实例分割方法比较 5 结论 参考 创新点 1、提出一种新的 Two-stage 检测方法——D2Det; 2、引入 稠密局部回归 (dense local regression),并通过 二值重叠预测策略 (binary overlap prediction strategy)进一步将其改进。解决了精确定位问题; 3、引入一种判别型 Rol pooling 方案,解决了精准分类的问题。 摘要撰写 1、提出了什么方法; 2、陈列并简述方法的创新点,不给予扩展; 3、说明数据集出处➡将新方法与就方法对比➡摆出实验数据➡套话结束。 1 我们的方法(第三部分) 给出总体框架,有逻辑性的陈述理论工作 新方法的原型是 Faster R-CNN,与 Faster R-CNN 不同的是: 采用独立的分类与回归方案; 用稠密局部回归代替 Faster R