Low-light images enhancement/暗光/低光/微光增强系列:Attention-guided Low-light Image Enhancement(详解)

≡放荡痞女 提交于 2020-03-17 08:01:23

以下文字为博主翻译并添加了自己的理解,斜体为博主自己的想法,若有出错请指出。

摘要

暗光图像增强需要同时有效地处理颜色、亮度、对比度、伪影和噪声等多种因素。本文提出了一种新颖的注意力引导增强方案,并在此基础上构建了 端到端多分支(multi-branches) CNN。该方法的关键是计算两个注意力图来分别指导曝光增强和去噪任务。第一个注意力图区分曝光不足的区域和光照较好的区域,而第二个注意力图区分噪音和真实纹理。本论文的方法还能增强暗光图像缺失的对比度。论文还提出了一种创建暗光增强的大数据集。


Introduction

暗光图像质量退化严重,相比正常曝光图像,丢失了许多细节,颜色失真,同时拥有非常多的噪点,对于现实中的高级视觉任务性能有严重影响。基于HE(直方图均衡)的方法和基于RETINEX的传统方法都不能很好地解决暗光增强的问题,而且这些方法常常忽视去噪
在之前的研究中,有先去噪,再增强的流程;也有先增强,再去噪的流程。但是前者导致图像变得模糊,后者会放大噪点。而本文的方法,将增强和去噪同时进行,能够有效地避免以上问题。
本文最主要的贡献列为三点:

  • 设计了注意力图为引导的双向增强网络,拥有多分支结构,可以同时进行去噪和增强
  • 设计了一套高质量的暗光图像训练流程,创建了一个大规模的成对暗光图像(合成)数据集,有助于其他研究者进行研究
  • 研究成果表明,方法达到了SOTA

related work

  • 一些基于HE(直方图均衡)的方法单纯扩大了图片的动态范围,但是并没有考虑光照因素,只是关注图片的对比度,会导致增强过多或者增强不足的问题。
  • 一些传统的基于RETINEX的方法,依赖人工调整参数,同时噪声处理方面不尽人意。
  • 一些基于现有深度学习(deep learning)的方法,已经在性能上相比传统方法提升很多,但是很多没有仍旧没有考虑去噪,或者依赖的是传统方法的去噪,这与本文不同,本文特别考虑了去噪这一任务,这是对现有基于深度学习方法的重要补充。
  • 本文还介绍了一些现今流行的去噪方法,同时指出只有同时进行增强和去噪,才能最好地提升图片质量,避免模糊等情况发生。

datasets

论文需要进行的暗光图像模拟高质量的正常曝光图像作为输入,同时这些图像还可以作为训练时的ground truth(以下写为GT),所以作者在一些已有的大型数据集中,以darkness estimation、blur estimation和color estimation三个指标来选择一些符合要求的高质量图像。
具体一共选择了965张高质量图像,作为测试集。本文使用包含22656张图像的数据平衡子集(data-balanced subset)作为训练集。
p.s. 上面的数据平衡子集翻译起来怪怪的
论文发现,通过线性变换和伽马变换,可以将正常曝光图像有效地、近似的合成为暗光图像。详细方法请见论文。
值得一提的是,如果单纯使用高质量的图像作为GT来回归,得到的输出图像对比度会降低,具体参见:MBLLEN:Low-light ImageVideo Enhancement Using CNNs,所以作者提出要使用多分支的融合方式来增强图像,恢复其对比度。
我自己感觉,本文的多分支融合,实际上类似通道加权,将学习到的特征全都考虑进去。


methodology

在这里插入图片描述
论文设计了四大模块:Attention-Net,Noise-Net,Enhancement-Net以及Reinforce-Net,下面分别介绍:

  • Attention-Net
    采用的是U-Net的结构,输出一张ue-attention map(ue:underexposed),其数值越高,代表区域越亮,反之亦然,范围在(0,1]。
    结构如论文图4左小角,计算如下:
    在这里插入图片描述
    另外,论文还指出,ue-attention map实际有点类似RETINEX理论中illumination map,相同的是两者都能指出光照亮度信息。不同的是作者称,反向的ue-attention map的信息质量比illumination map更高,因为illumination map在感知图像中大量黑色的区域会将噪音放大。
    如下图:
    在这里插入图片描述
    p.s. 作者这里提出ue-attention map和illumination map的对比非常聪明和科学,因为暗光增强任务中的一大经典且有效的理论就是RETINEX理论,如果能直观地、科学地表明自己的方法更加优秀,则增加了作者方法的科学可信度。
    p.s. 为什么是反向的ue-attention map,因为正的ue-attention maps是越亮数值越低,与illumination map相反

  • Noise-Net
    作者声明,图像中噪点的分布和图像的亮度应该是息息相关的,又因为图像噪声和图像纹理在暗光图像中常常容易混浊在一起,所以利用生成出的ue-attention map作为去噪指导是非常有必要的。
    整个网络由dilated convolutional layers(膨胀卷积) 组成,增大了感受野,有利于噪声估计。增大感受野,有点类似关注全局content信息。

  • Enhancement-Net
    实际上这里的Enhancement-Net,与MBLLEN非常相似,毕竟本论文就是MBLLEN的升级版。
    这部分具体分为:特征提取模块FEM(feature extraction module)、增强模块EM(enhancement module)和融合模块(fusion module)
    具体结构如上面的论文图4,卷积层大小和步长参见论文,下面来详细讲讲如何连接的:
    FEM的input是原始暗光图像,经过卷积后,得到的特征图与之前得到的ue-attention map,noise-map一同作为输入送进EM模块中;同时上一层得到的特征图,作为下一层的FEM的输入。
    另外,每一层的EM模块都不相同:EM-1是一组具有较大核尺寸的卷积/反卷积层;EM-2EM-3具有类似U-Net的结构,不同之处在于skip connection的实现和特征图的大小;EM-4具有网状结构,论文去掉了BN批归一化,只使用了几个re块来减少模型参数;EM-5由输出尺寸与输入尺寸相同的膨胀卷积层组成。值得一提的是,EM网络中并不共享网络参数

  • Reinforce-Net
    主要解决的是输出的增强图像对比度不足的问题,用的是膨胀卷积方法。(Fast image processing with fully-convolutional networks)


loss function

总的loss由四大模块Attention-Net, Noise-Net, Enhancement-Net and Reinforce-Net的loss组合而成,
在这里插入图片描述
权重分别为{100,10,10,1}

  • ** Attention-Net loss**
    输入为原始低光图像,计算 L2 loss:
    在这里插入图片描述
  • Noise-Net loss
    输入为ue-attention map,计算 L1 loss:
    在这里插入图片描述
  • Enhancement-Net loss
    作者称,单纯使用MSE,MAE等通用loss,会导致模糊和伪影,所以这里专门设计了一系列loss来限制:
    在这里插入图片描述
    Leb为bright loss,Les为structure loss,Lep为perceptual loss,Ler为regional loss权重分别为{1,1,0.35,5}
    • bright loss可以保证图像拥有足够的亮度,
      在这里插入图片描述
    • structural loss用来保证图像结构的完整并且防止模糊,使用的是SSIM(结构相似度)方法来创建loss,
      在这里插入图片描述
    • perceptual loss可以提升增强图像的视觉质量,具体方法是使用已经预训练好的VGG19(使用第三个block中第四个卷积层的输出)作为perceptual loss提取层,来比较高层信息中的一致性来计算loss,
      在这里插入图片描述
    • regional loss用来平衡暗光区域和正常曝光区域的增强强度,
      在这里插入图片描述
      ssim()代表计算SSIM值
  • Reinforce-Net loss
    类似Enhancement-Net loss,
    在这里插入图片描述
    Lrb代表bright loss,Lrs代表structure loss,Lrp代表perceptual loss权重为{1,1,0.35}
    p.s. 具体loss符号代表含义与实施细节请参考论文

EXPERIMENTAL EVALUATION

论文使用了图像增强中常用的PSNR(峰值信噪比)SSIM(结构相似性作为图像质量测试指标,同时还加入了平均亮度Average Brightness (AB) , 视觉信息保真度Visual Information Fidelity (VIF) ,亮度循序误差Lightness Order Error (LOE) ,色调映射图像质量指数Tone Mapped Image Quality Index (TMQI) 和 感知图像块相似性度量Learned Perceptual Image Patch Similarity Metric (LPIPS)。

p.s. 在其他工作中,用的最多也就是PSNR和SSIM两个,我这是第一次见到测试了这么多指标的

论文基于自创建的合成数据集和两个公开可用的真实微光数据集(LOLSID)进行定性和定量的比较,还进行了现实自然图片的实验。

1. 自创建的合成数据集的实验

论文称,因为大多数方法没有设计去噪,所以专门设计了对比实验,通过给那些没有去噪功能的方法加入CBDnet去噪,然后进行比较。分为不额外增加噪声额外增加噪声两个实验,在两个实验中论文的方法都取得了最好的成绩,充分显示了方法的鲁棒性。
红色最好,绿色第二,蓝色第三。
在这里插入图片描述
在这里插入图片描述
论文还称,好的网络不仅应该增强质量优秀,效率也非常重要,也做了网络训练速度的对比。
在这里插入图片描述
2. 现实数据集的实验
通过在LOL数据集上与RetinexNet的对比实验、在SID上的控制变量改变网络结构(单纯使用论文的Enhancement-Net或Reinforce-Net),证明了论文的方法具有更好的性能。
在这里插入图片描述
在这里插入图片描述
3. 现实自然图片的实验
现实自然图片就是现实中随便取的图片
相比对比的方法,论文的方法称,在对比度、颜色保真和色彩饱和度上具有更好的表现。
在这里插入图片描述
4. 观者调查
论文还进行了用户调查,论文的方法有最多的第一排名的选票,第三方来证明论文方法能够输出高质量的输出图像。
在这里插入图片描述
5. 泛化研究
为证明论文的鲁棒性和有效性,论文在一些特定领域,例如单色监控、游戏夜景中进行了实验;同时对于一些图像高级任务如目标检测、实例分割也能提高其网络性能(用在预处理阶段)
在这里插入图片描述
6. 消融实验
论文做了loss function、network structurenumbers of branches的消融实验。
证明了现有的loss确实都有对性能有提升;证明了使用Attention-Net能够提升质量;证明了并不是分支branches越多或者越少最好,选取为10时效果最好。
在这里插入图片描述


博主总结

论文使用了一种以注意力机制为指导的多分支融合的图像增强方法来增强低光图像,达到了SOTA,主要创新点和亮点在于:

  • 注意力机制可以指导网络正确提亮和去噪相应的区域
  • Enhancement-Net中的多分支融合机制,因为不共享网络参数,有点类似加权学习,能够关注到原有图像不同层次的信息
  • 在Noise-Net和Reinforce-Net中使用了本使用在语义分割上的膨胀卷积(也称空洞卷积),因为增大了感受野,能够关注到比较全面的信息(膨胀卷积的介绍
  • 设计了一种创建合成低光图像数据集的方法
  • 在多类型的数据上,设计了非常多且全面的实验,很多实验方法和做图技巧都可以进行参考,用在自己的工作中
  • low light enhance最关注的的是什么?是噪点、颜色失真和模糊等等指标。论文针对这些最关注的点专门设计网络,并设计实验来验证,同时在论文中表述的非常清楚。例如文中说到以前的增强方法很少关注去噪,而本文专门设计了Attention-Net和Noise-Net来解决这些问题,并通过控制变量的是否额外增加噪点的实验来验证。
  • 善用控制变量法进行实验,如是否添加额外噪声的实验、单独拿出Enhancement-Net来进行实验
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!