凭一己之力将澳大利亚机器学习研究院拉至全球排名第四;GitHub 1400 多颗 Star、并用于 Top 级手机厂商的视觉处理;这就是程序员口中的 “CV 大牛” 沈春华团队的“战绩”。
目前,沈春华在澳大利亚阿德莱德大学担任计算机科学教授。这位本科毕业于南京大学、后在阿德莱德大学获得博士学位的中国科学家,其主要研究机器学习和计算机视觉,而计算机视觉的终极目标是建立一个具有人类表现的视觉系统。
图 | 2019 年沈春华回国参会
2012 年,沈春华获得澳大利亚研究委员会的未来学者称号。除教职之外,他还是澳大利亚研究委员会机器人视觉卓越中心的科研负责人。从阿德莱德大学网站获悉,沈春华上月被列为澳大利亚科研终身成就奖,是工程与计算机类奖项的 5 名获选人之一(https://specialreports.theaustralian.com.au/1540291/9/)。
计算机排名网站 CSRanking 显示,沈春华是过去 10 年间在计算机视觉方向 3 大顶级会议发表论文最多的在澳学者。他的科研成果和产出是阿德莱德大学下属的澳大利亚机器学习研究院 (Australian Institute for Machine Learning,AIML) 能在 CSRanking 上排名世界第 4 的主要原因之一。
鉴于澳大利亚机器学习研究院的国际声誉,澳大利亚联邦政府最近宣布拨款 2000 万澳元(合近 1 亿人民币)资助该研究院的科研,同时他还兼任研究院机器学习理论课题的主任。据 Google Scholar 显示,他的论文已积累 22000 多引用,个人 H-index 为 71。
从教至今,他教出过多位优秀中国留学生,他的学生中目前有 3 位获得 Google 博士奖学金(Google PhD Fellowship)。自 Google 首次颁发该奖项至今 12 年间,澳大利亚所有高校一共只有 7 人次在 “机器感知、语音技术和计算机视觉” 这个方向上获得该奖项,而其中 3 人出自沈春华团队。
除此之外,还有多位毕业生入职名企、或在知名大学担任教职, 如悉尼大学、墨尔本莫纳什大学、新加坡理工大学等等。
图 | 沈春华指导的部分博士毕业生
虽然他不在国内,但却时不时有中国程序员,在网上撰文逐句逐段分析他的论文,甚至主动翻译他的论文。同时,他的论文研究已有不少投入应用。
其团队开发的开源工具箱 AdelaiDet,曾和全球数一数二的手机厂商合作,部分算法曾经用于该公司的旗舰手机上。该算法可帮助手机优化拍照功能,拍出来的照片更鲜艳,还可帮助相机更好地实现特效功能和背景虚幻等功能。
截止目前,AdelaiDet 主要包含以下算法:FCOS、BlendMask、ABCNet、CondInst、SOLO,本文主要介绍前四个算法。
FCOS:基于 FCN 的逐像素目标检测算法
FCOS(Fully Convolutional One-Stage Object Detection)的中文翻译是目标检测器,是沈春华团队于 2019 年推出的计算机视觉目标检测算法,并以《FCOS:完全卷积一阶段目标检测》(FCOS: Fully Convolutional One-Stage Object Detection)为题发表在国际计算机视觉大会 2019 上。
在国内某问答社区上,一位目前在字节跳动担任高管、博士毕业于清华大学电气工程系的认证用户表示,这篇论文是“入门检测最合适的文章”。
具体来说,FCOS 是一种基于全卷积神经网络的逐像素目标检测算法,最大亮点是提出了一个不需要锚框(Anchor Free)的全新的目标检测算法。FCOS 在性能上接近甚至超过目前很多基于锚框的主流目标检测算法。
目前大多数目标检测模型如 Faster R-CNN、YOLOv3 等都依赖于预先定义的锚框。相比之下,FCOS 不依赖预先定义的锚框或提议区域。通过去除预先定义的锚框,FCOS 可完全避免锚框的复杂运算,并能节省训练过程中的内存占用。
更重要的是,FCOS 可避免和锚框有关、且对最终检测结果敏感的所有超参数。因此 FCOS 比以往基于锚框的一阶段或者二阶段目标检测器要大大简化。
图 | FCOS 网络结构
从论文中的对比测试来看,FCOS 的精度已超过老牌经典算法 Faster R-CNN。
图 | FCOS 的精度对比
如下图案例所示,FCOS 在对目标物体框中、所有的点进行目标框回归时,会用各个边的距离长度来计算损失,这样可以为后续使用 Center-ness 准备。
图 | FCOS 用各个边的距离长度来计算损失
目前,在开发者群体中,FCOS 的论文已经成为他们眼中的 “沈春华团队的代表作”。而 BlendMask、CondInst、SOLO 的相关论文则被媒体称为 “沈春华团队的又一力作”。
BlendMask:可提取更准确的实例分割特征
BlendMask 的中文意思为实例分割算法,它来自沈春华团队的另一篇发表于 CVPR2020 的论文《BlendMask:自上而下与自下而上相结合的实例分割》(BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation)。
BlendMask 提出了一种结合自上向下和自下向上两种设计策略的实例分割算法,在精度上超越了另一目标检测项目 Mask RCNN,速度上快 20%。
经测试发现,在 COCO 数据集上使用 ResNet-50,BlendMask 性能可达 37.0%的 mAP(平均精度均值,mean average precision),使用 ResNet-101 其性能可达到 38.4%的 mAP。
BlendMask 可通过更合理的 Blender 模块,来融合 top-level 和 low-level 的语义信息,从而提取更准确的实例分割特征。据悉,BlendMask 是少有的在 mAP 和推理效率方面均能胜过 Mask R-CNN 的算法之一。
ABCNet:比其他方法最高快 10 倍以上
ABCNet 的全称为 Adaptive Bezier-Curve Network,中文意思为自适应贝塞尔曲线网络。近年来,场景文本的检测与识别越来越受重视。
现有方法大致分为两类:基于字符的方法和基于分段的方法。这些方法的标注代价高昂、框架十分复杂,因此并不适用于实时应用程序。
为此,沈春华团队提出 ABCNet 来解决上述问题。其贡献主要有三方面:
1、首次提出通过参数化的贝塞尔曲线(应用于二维图形应用程序的数学曲线),并自适应地拟合任意形状的文本。
2、设计了一种新颖的贝塞尔曲线层,可用于提取任意形状的文本实例的精确卷积特征,精度上远超此前方法。
3、与边界框目标检测方法相比,贝塞尔曲线检测引入的计算开销可以忽略不计,兼具高效率和高准确度两大优势。在基准数据集 Total-Text 和 CTW1500 上进行的实验表明,ABCNet 能达到较高的精度,速度也有显著提升。其中在 Total-text 上,ABCNet 的实时版本比其他方法最高快 10 倍以上。
CondInst:可显著加快推理速度
CondInst 是一个用于实例分割的条件卷积,相关论文《基于条件卷积的实例分割》“Conditional Convolutions for Instance Segmentation” 发表在 ECCV 2020 上。
CondInst 可以完全不依赖 ROI(感兴趣的区域,region of interest)操作。而是采用以实例为条件的动态卷积达到分割实例的效果。
具体来说,它有两个优点:1、通过全卷积网络解决了实例分割,无需进行 ROI 裁剪和特征对齐等操作。2、由于动态生成的条件卷积的性能大大提高,因此可以显著加快推理速度。
以上几个算法,是沈春华团队 AdelaiDet 开源工具箱中的主要组成部分。该工具箱受到了学术界和工业界的相当的关注。亚马逊 AWS 已有意向在其产品中使用工具箱中的目标检测、实力分割、文字检测识别等能力。
利好小公司开发者,不懂算法也能用
一言以蔽之,沈春华团队的研究工作的主要目的之一,是为了提高开发者工作质量和效率,反映到终端用户则能用到更好的产品。
以背景自动虚化为例,现在几乎所有手机都有该功能,背后正是人工智能算法在运行。以前文提到的手机厂商来说,手机算法对功耗、速度都有极高要求,因此需要给厂商做个性化方案。如果说开源算法是一个基础款汉堡,个性化方案就是在此基础上,加了很多其他菜。
但是该算法并非十全十美,它仍可以追求更高效、更少的计算量和更高的精度。据了解,沈春华团队在深度学习模型定点化方面也做了不少工作,这些算法可让深度学习对嵌入式低功耗设备更友好。
举例来说,标准浮点运算一般是 16 位或 32 位,它的计算量比较大,产业界希望未来能做到一到两比特,一个比特只有 0 和 1,两个比特可以有四种组合,那么这种计算就能大大减少运算量和功耗,从而适配移动端低功耗设备。
该团队做的相当一部分工作,是希望能解决业界难题。一些小微公司的开发者也许并不懂人工智能,那么开发人工智能算法就会比较困难。使用类似沈春华团队开发的工具箱, 则可大大降低使用门槛。
如今依赖该团队的工具箱,已经有越来越多的程序员受惠其中。在该团队的 GitHub 开源网址 https://git.io/AdelaiDet 上,已经有 1400 颗 Star。
他虽然身在海外,但通过没有国界的互联网,正在以技术范的方法,帮助不断增长的中国程序员群体更好地敲代码。
来源:oschina
链接:https://my.oschina.net/u/4364022/blog/4696896