A³ CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural Network for Multisource Remote Sensing Data Classification
2020-11-19

论文地址:https://ieeexplore.ieee.org/document/9234528

背景

本文提出了一种新的方法利用高光谱图像与LiDAR数据的互补性进行特征提取和多源遥感数据分类。即:一种新的双通道空间、光谱和多尺度注意力卷积长短期记忆神经网络(dual-channel A³ CLNN)。本文提出了一种混合注意力学习机制(三级融合策略)来完全整合HSI和LiDAR数据的空间、光谱和多尺度信息;并设计了一种新颖的逐步训练策略来产生最终的分类结果。

其中,三级融合策略如下:

第一级融合阶段:提出了混合注意力学习方法——以利用LiDAR数据和HSI数据中的空间信息和光谱信息;

第二级融合策略:联合两种类型数据的特征输出作为分类层的输入;

第三级融合策略:LiDAR数据的特征在融合网络的顶部再次被使用——以充分利用LiDAR数据。

逐步训练策略具体如下:

  • HSI和LiDAR分支首先被单独训练以获得初始的特征
  • 训练所得的特征被用来初始化一个本文所提的整个融合网络
  • 使用一个多任务的损失函数对dual-channel A³ CLNN优化

贡献:

  • 本文开发了可学习的空谱注意力模块以获得空间增强和光谱增强的特征
  • 本文设计了一种可学习的多尺度残差注意力模型以增强整个模型的多尺度信息表达能力
  • 本文提出了三级融合策略和逐步训练策略

Dual-Channel A³CLNN

A、模型预览

image-20201119094258710.png

B、Composite Attention Learning

  • 光谱注意力模块(SeAB)

    image-20201119094854296.png

    设Xl^H^ ∈ R(ωl * hl * sl * cl)是第l个ConvLSTM3D层或初始的HSI数据的输出,SeAB的目的是学习一个注意力向量α Se ^H^ .

    如图2所示:X l ^H^ 首先沿着光谱通道分解,被分解为sl个二维的分量Band。然后将每个Band送入一个卷积核为3 * 3的ConvLSTM2D层中,以建模光谱通道的长距离依赖;接着再被送进一个卷积核为1 * 1的ConvLSTM2D层中。将所有光谱通道(sl个)组成为非归一化注意力图Z Se ^H^ ∈ R(ωl * hl * sl * 1)(即由图中黄色方块构成),将其经过池化(Pooling)得到注意力向量zSe^H^ ,长度为sl。最后经过Softmax函数得到α Se ^H^ . 其公式如下:

    image-20201119102309998

    显然SeAB模块也是一个即插即用的模块。

  • 空间注意力模块(SaAB)

    image-20201119102718557.png

    与SeAB类似,由于LiDAR数据为3维,故不需沿光谱通道分解,由于是给图像的空间添加注意力,故经过1 * 1的ConvLSTM2D操作得到的ωl * hl * 1的特征直接经过softmax得到ωl * hl的注意力权重。其公式如下:

    image-20201119103251142

    同样SaAB为一个即插即用的模块。

C、多尺度残差注意力模块(MSRAB)

image-20201119104543382.png

以LiDAR分支为例,Xl ^L^ ∈R(tl * wl * hl * cl)为MSRAB模块的输入,Xl+1 ^L^ 为输出。其中tl为ConvLSTM2D层的时间步长维。

将Xl ^L^ 分别经过1、3、5大小的卷积核卷积(捕获多尺度信息),得到三个新的特征,将这三个特征在时间步长的维度联合在一起,并以非线性的方式学习,得到ZMSR ^L^ ∈R(3tl * wl * hl * cl),经过GAP和softmax得到多尺度的注意力向量 α MSR ^L^ ,长度为3tl. 公式如下:

image-20201119110815731

将经过残差块网络所得的特征经过a * a的卷积再加上初始的X l ^L^ :

image-20201119113033133

MSRAB可以用作多尺度信息增强模块,为整个模型带来更大的感受野,并且MSRAB可以自适应地关注各个尺度上的重要区域。

D、高光谱分支的多尺度光谱注意力神经网络

即图一的整个上半部分。将HSI以PCA降维到K个方向,然后选取每个像素的邻近s * s区域作为该像素的空间上下文信息。故每个像素块(s * s * k)为每个像素点的输入。将其转换为长度为τ的时间序列,即转化为ConvLSTM3D的输入格式,对每个ConvLSTM3D层的输出应用SeAB提取光谱增强的特征(本文设置ConvLSTM3D为1层)。

将池化得到的操作经过MSRAB模块后应用BN(Batch Normalization)操作和swish函数进行正则化。接着应用GAP层代替FC层将特征空间映射到类标签空间。这样操作可直接赋予每个通道实际的类别意义,抑制过拟合,减少参数,减少模型对输入尺寸的限制。而后只用softmax预测每个类别c的条件概率分布,具体如下:

image-20201119132117252

E、LiDAR分支的多尺度空间注意力神经网络

同样,对W * H大小的LiDAR数据集以s * s大小划分数据集patch。将其分解转化作为ConvLSTM2D的输入,与D部分类似,经过SaAB、pooling、MSRAB、BN、Swish、GAP、softmax得到条件概率分布P c ^L^ ,以及交叉熵存实Loss L

F、三层融合策略

三次融合如图1三次红色箭头。

第一次融合:是为了充分利用LiDAR数据的空间信息以增强HSI的特征表示。公式表示如下:

image-20201119133446004

第二次融合:每个分支的MSRAB的输出得到空谱维度的级联,而后使用ConvLSTM3D和GAP。公式:

image-20201119133808902

第三次融合:HSI的特征信息比起LiDAR的多得多,故最后将LiDAR经过GAP得到的特征与公式11所得的特征连接,X F = [ X ^F^ GAP , X ^L^ GAP ],增强LiDAR数据信息的表示。最后使用softmax函数得到分布。最后采用交叉熵损失函数。

G、损失函数与网络训练策略

image-20201119134333387

α、β、γ本文设为1. 训练过程中先使用Nstep1和Nstep2个epoch分别对LiDAR和HSI分支训练。而后受迁移学习启发,将本文的融合网络由这两个预训练分支初始化,并用公式12所提的损失函数训练Nsteps轮。

image-20201119134811148

实验结果(部分)

image-20201119135157699