STN的主要思想是通过网络学习一个变化参数,然后计算出新图在原图上对应的坐标,再通过某种填充方法填充新图。
使得得到的新图很好的适应nn训练。可以理解为是拿来把不规范的图像变换为标准形式的图像。
网络结构图如下:
主要步骤分为以下三步:
(1) Localisation net
计算出变化参数,是一个仿射变换的参数,用来表示原图与新图坐标的对应。
(2) Grid generator
通过变换参数和新图来计算出原图坐标,这一步是做个矩阵运算,以目标图V的所有坐标点为自变量,加入变化参数做一个矩阵运算,得到输入图U的坐标点。
(3) Sampler
通过原图坐标以及原图来填充新图;通常采用双线性插值,可以防止梯度不变。
具体的例子如下: