论文阅读笔记--JSI-GAN: GAN-Based Joint Super-Resolution and Inverse Tone-Mapping with UHD HDR video | 易学教程

Kim S Y , Oh J , Kim M . JSI-GAN: GAN-Based Joint Super-Resolution and Inverse Tone-Mapping with Pixel-Wise Task-Specific Filters for UHD HDR Video[J]. ECCV 2019.

摘要:

最近已经探索了对超分辨率（SR）和逆色调映射（ITM）的联合学习，以将遗留的低分辨率（LR）标准动态范围（SDR）视频转换为高分辨率（HR）高动态范围（HDR）视频，以满足不断增长的需求超高清HDR电视/广播应用程序。但是，以前的基于CNN的方法直接从LR SDR帧重建HR HDR帧，并且仅以简单的L2损失进行训练。在本文中，我们采用分而治之的方法设计了一种新颖的基于GAN的联合SR-ITM网络，称为JSI-GAN，它由三个特定于任务的子网组成：图像重建子网，详细信息恢复（DR）子网和局部对比度增强（LCE）子网。我们精心设计了这些子网，以便对它们进行适当的训练以达到预期目的，并通过DR子网学习了一对按像素划分的1D可分离滤波器，以进行细节还原，并通过LCE子网学习了按像素划分的2D局部滤波器，以增强对比度。此外，为了有效地训练JSI-GAN，我们提出了一种新颖的detailGAN损失以及常规GAN损失，这有助于增强局部细节和对比度，以重建高质量的HR HDR结果。当所有子网都经过很好的训练后，可获得更高质量的预测HR HDR结果，其PSNR增益至少比以前方法生成的结果高0.41 dB。正式的Tensorflow代码可从https://github.com/JihyongOh/JSI-GAN获得

贡献总结如下：

•我们首先提出了一个用于联合SR-ITM的GAN框架，称为JSI-GAN，具有新颖的细节损失和特征匹配损失，可以恢复现实的细节并进行稳定的训练。”

•JSI-GAN的设计旨在具有特定于任务的子网（DR / IR / LCE子网络），这些子网具有像素级的1D可分离滤波器以改善局部细节，并具有2D局部滤波器以增强局部对比度，方法是考虑给定放大系数的局部上采样操作。

•DR子网专注于高频分量，以精心还原HR HDR输出的细节，而LCE子网通过专注于LRSDR输入的基础层分量，有效地恢复了局部对比度。

网络结构:

Generator

Detail Restoration(DR) Subnet:

是上采样滤波器, 输入是细节层

包含了 LR SDR 输入图片的高频分量,

, 其中

是X应用引导滤波器的输出,

表示按元素相除. 在我们的实现中，向分母添加一个较小的值

，以防止在

接近零的情况下

发散.

用于生成水平和垂直一维可分离滤波器.

残差模块(Res-Block) RB定义:

, 其中 x 是 ResBlock 的输入, Conv 是卷积层, RL是 ReLU激活函数.

水平1D滤波器

, 其中

表示 n个 ResBlock 串行级联. 垂直 1D滤波器

用同样的方式获得. 在生成1D水平和垂直滤波器时，除最后一个卷积层外的所有层都共享.

最后两个卷积层中的每一个都由41×scale×scale 输出通道组成，其中41是一维可分离kernel的长度，每个通道应用于其对应的网格位置，scale × scale 考虑了对于上采用因子scale 的像素混洗重组操作. 动态可分离上采样操作 (

) 表示使用两个1D可分离滤波器产生空间上采样输出.

DR subnet 输出为:

生成的一维kernel是位置特定的，也是细节特定的，因为针对不同的细节层生成了不同的kernel，这与训练后固定的卷积滤波器不同, 在实现中, 首先通过每个比例通道的局部过滤将

应用于细节层, 然后在其输出应用

, 最后，将像素混洗应用到具有scale * scale 个通道的最终滤波输出上，以进行空间放大

Local Contrast Enhancement(LCE) Subnet

LCE子网在每个像素网格位置生成一个9×9 2D局部滤波器, 同样是上采样滤波器, 在最后一层具有9×9×scale×scale输出通道

LCE 网络输出

由于将Cl视为LCE掩码，并且将其逐个元素地与IR和DR子网的两个输出之和相乘，因此JSInet与singmoid函数更好的融合,没有它，初始预测输出（与Cl相乘后）的像素值太小，需要更长的训练时间才能使JSInet的最终HR HDR输出达到合适的像素范围

Image Reconstruction (IR)Subnet

输入LR SDR 图像X, 产生中间特征

IR 网络的输出

, PS 是 pixel-shuffle 操作, [x, y ] 表示在通道方向x与y 进行拼接.

最终HR HDR预测值

Discriminator

输入x (P[生成器预测的结果] 或 Y[ground truth]), 判别器的输出

其中, BN表示 batch normalization, LRL 表示 Leaky ReLU激活slope size 为0.2, FCk 表示全连接层有k个输出通道. K Conv s表示k*k 大小的 kernel size , stride 为s

DB(DisBlock)

对抗损失(Adversarial loss):

其中,

feature-matching loss:

Detail GAN loss:

为了增强训练稳定性和提供局部对比度和细节产生更好的结果.

d 上标表示细节层. 对于

我们采用不同于第一鉴别器（D1）的第二鉴别器（D2），两者的结构相同，但D2取两个输入Pd和Yd，由等式(1)计算得出[

]。

total loss:

上标d表示细节层成分（Pd，Yd）的损失

实验:

三个losses(

), 权重按经验设置为

D1和D2的输出channel c = 32. LR SDR patch size 80*80(2倍) 或 40*40(4倍)从8-bit YUV帧中裁剪得到. HR HDR patch size 160*160 从10-bit YUV 帧裁剪得到.

来源：CSDN

作者：qq_25283239

链接：https://blog.csdn.net/qq_25283239/article/details/103956893

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!