AAAI 2020 SR+ITM论文:JSI-GAN

爷,独闯天下 提交于 2020-01-23 20:34:30

JSI-GAN: GAN-Based Joint Super-Resolution and Inverse Tone-Mapping with Pixel-Wise Task-Specific Filters for UHD HDR Video

摘要

使用分治策略来处理SR-iTM问题;将其分成三个任务相关的子网络:图像重建子网络(image reconstruction subnet),细节恢复子网络 (detail restoration subnet),局部对比度增强子网络(local contrast enhancement subnet),从而学习到一组像素级的逐像素的1维可分离卷积用于复原细节,像素级的2维局部卷积核来用于对比度增强。此外,作者提出一种可增强细节信息的GAN loss,可同时增强细节恢复和对比度复原。
代码链接: https://github.com/JihyongOh/JSI-GAN

Introduction

在这里插入图片描述
一方面,作者认为SR-ITM这个问题需要同时考虑两个问题:如何在上采样的结果中恢复细节;由于比特位数增加如何增强局部的对比度信息(enhance local contrast)
GAN网络可用于生成图片,但作者认为GAN网络会导致主观的图像质量提高的同时降低客观的评价指标(PSNR,SSIM),直接使用传统的GAN网络的结构会导致缺少相应的细节和局部的对比度,因此本文中使用了新的detail loss,使得生成的图片与GT的细节更相符合,并且使用一种feature-matching loss,用来减轻在训练过程中客观评价的drop。
Contributions:
1.提出JSI-GAN,使用新的detail loss和feature-matching loss用于保证细节的复原和训练的稳定性。
2.将网络的生成器设计为任务相关,在局部细节复原中使用逐像素的一维可分类的filter;在local contrast enhancement问题中使用2D局部filter。
3.DR(detail restoration)子网络精巧地恢复高分辨率的HDR输出结果,LCE(local contrast enhancement)子网络有效地恢复局部的曝光度。

Proposed Method

下图为生成器JSINet,分成细节恢复子网络,图像重建子网络和局部对比度增强子网络。
细节恢复子网络(detail restoration subnet):Xd=XXbX_d = X \oslash X_b,XbX_b是X经过guided filter后的结果;\oslash表示的是逐像素的乘积;为防止出现除0的情况,在分母XbX_b上加上了一个极小值101510^{-15}XdX_d用于生成一维的水平和垂直的可分离filter。最后生成41×\timesscale×\timesscale,41是一维可分离卷积核的长度,scale×\timesscale代表着超分问题的上采样scale。从而获得动态可分离上采样操作:D=Xd˙s(f1Dv,f1Dh)D = X_d {\dot\ast_s}(f_{1D}^v,f_{1D}^h)
生成的filter是与位置相关的,也是与细节相关的,不同的卷积核用于生成不同细节的特征,而不是使用固定的卷积核用于训练。(dynamic filter for sr)k=41的一维可分离卷积核与9x9的filter的参数几乎是一样的。
局部对比度增强网络:经过guided filter的XbX_b用于增强局部的对比度。LCE子网络在每个像素区域生成一个9x9的二维的local filter。最后生成的LCE结果Cl=2×sigmoid(Xb˙f2D)C_l=2\times sigmoid(X_b\dot\ast f_{2D})
图像重建子网络:如下图所示,最后生成的结果P=(I+D)×ClP= (I+D)\times C_l

在这里插入图片描述
Ablation Study 如下图所示:
在这里插入图片描述
Discriminator的设计如下,使用了spectral normalization(借鉴了SN-GAN)用来使GAN训练更加稳定。输出如下:
Df(x)=(BNFC1BNFC512LRLBN4Conv2DB4LRL3Conv1)(x)D^f(x)=(BN\circ FC1\circ BN \circ FC512 \circ LRL \circ BN \circ 4Conv2\circ DB^4 \circ LRL \circ 3Conv1)(x)
其中LRL是参数为0.2的LeaKy ReLU,FCkk是有k层输出的全连接层,kConvskConvs代表着k×\timesk的卷积核。DBnDB^n代表着n次DisBlocks层,
使用了RaHinge GAN
LadvD=EY[max(0,Q~Y,P())]+EP[max(0,Q~P,Y(+))]L_{adv}^D=\mathbb{E}_Y[max(0,\tilde{Q}_{Y,P}^{(-)})]+\mathbb{E}_P[max(0,\tilde{Q}_{P,Y}^{(+)})]
LadvG=EP[max(0,Q~P,Y())]+EY[max(0,Q~Y,P(+))]L_{adv}^G=\mathbb{E}_P[max(0,\tilde{Q}_{P,Y}^{(-)})]+\mathbb{E}_Y[max(0,\tilde{Q}_{Y,P}^{(+)})]
其中,Q~P,Y(±)=1±D~P,Y,D~P,Y=Df(P)EYDf(Y)\tilde{Q}_{P,Y}^{(\pm)}=1\pm \tilde{D}_{P,Y},\tilde{D}_{P,Y}=D_f(P)-\mathbb{E}_YD_f(Y),P是生成的图像,Y是GT图像。
同样本文提出了feature-matching lossLfm=i=14fmi(Y)fmi(P)2L_{fm}=\sum_{i=1}^4 ||f_{m_i}(Y)-f_{m_i}(P)||_2
最终的损失函数为LG=λrecYP2+λadv(LadvG+λdLadvd,G)+λfm(Lfm+λdLfmd)L_G=\lambda_{rec}\cdot ||Y-P||_2 +\lambda_{adv}\cdot(L_{adv}^G+\lambda_d\cdot L_{adv}^{d,G} )+\lambda_{fm}\cdot(L_{fm}+\lambda_d\cdot L_{fm}^d)
Detail GAN Loss
懒得写了,这个loss可以使得网络训练的更稳定。
在这里插入图片描述

实验结果

略。懒得写了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!