Rotate to Attend: Convolutional Triplet Attention Module
2020-10-28

论文地址:https://arxiv.org/abs/2010.03045

背景

近年来,卷积神经网络在许多计算机视觉任务中取得了成功。人们通过在通道之间或空间之间使用注意力机制来加权进而提升网络的性能,典型的比如SENet,CBAM,BAM等。本文提出了一种新的注意力机制—— triplet attention。与之前的注意力机制不同,本文方法有两个优点

1、triplet attention以可忽略的计算开销获取丰富的特征表示

2、triplet attention没有降维操作(CBAM有),它强调了多维交互的重要性,消除了通道和权重之间的indirect correspondence。

本文的triplet attention主要捕获跨维度的交互。即对于三维图像(C, H, W),分别探究(C, H)、(C, W)、(H, W)的维度间的关系。

模型

1、回顾CBAM的通道注意力

CBAM的通道注意力表示为:

image-20201028144619647

其中,g(x)代表平均池化GAP,δ(x)代表最大池化GMP,W0,W1代表权重

如下图所示,W0大小: C * C/r,W1大小: C/r * C, r是参数

作者认为:通道数由C–>C/r –>C被投影到一个较低空间又映射回去,造成了各通道间对应关系的损失

image-20201028141046767

2、Triplet Attention

image-20201028145757517

本文目的:如何在不涉及任何降维的情况下构建高效的通道注意力模型。本文提出了一种几乎没有参数的注意力机制来建模通道注意力和空间注意力——Triplet Attention。

本文模型由三个分支组成,如上图所示。第一二个分支负责跨纬度交互,即C与H或C与W维。第三个分支类似CBAM模型 ,建立空间注意力。所有三个分支的输出通过平均求和得到本文的注意力特征。

  • Cross-Dimension Interaction(跨纬度交互)

传统的通道注意力将一个通道的图像池化为一个像素点,这导致了空间信息的重大损失。 CBAM 引入了空间注意力,但是其缺点:空间注意力与通道注意力彼此分开运算。因此,本文提出了跨维度交互的概念。该概念通过捕获输入张量的空间维度和通道维度之间的交互来解决此缺点。即将通道维度C与空间维度H共同运算,C与W共同运算。

  • Z-pool

Z-pool层将tensor的第0维减少到2维。这两维由平均池化和最大池化拼接而成。如对于图像(C, H, W),经过Z-pool层之后为(2, H, W)

image-20201028153023782
  • Triplet Attention(见上图) —— X ∈ R(C, H, W)

    • 第一个分支,建立H与C之间的交互

      1、将输入X沿H轴逆时针旋转90°,得到X1 ∈ R(W, H, C)
      2、将X1经过Z-pool层,得到X1* ∈R(2, H, C)
      3、将X1* 经过卷积(卷积核为k * k)和BN层,得到新的输出维度为R(1, H, C)
      4、将新的输出经过sigmoid得到权重
      5、将权重施加于X1中
      6、将X1沿H轴顺时针旋转90°得到新的 X∈(C, H, W),即y1

    • 第二个分支,建立W与C之间的交互

      1、将输入X沿W轴逆时针旋转90°,得到X2 ∈ R(H, C, W)
      2、将X2经过Z-pool层,得到X2* ∈R(2, C, W)
      3、将X2* 经过卷积(卷积核为k * k)和BN层,得到新的输出维度为R(1, C, W)
      4、将新的输出经过sigmoid得到权重
      5、将权重施加于X2中
      6、将X2沿W轴顺时针旋转90°得到新的 X∈(C, H, W),即y2

    • 第三个分支,空间注意力

      1、将X3经过Z-pool层,得到X3* ∈R(2, H, W)
      2、将X3* 经过卷积(卷积核为k * k)和BN层,得到新的输出维度为R(1, H, W)
      3、将新的输出经过sigmoid得到权重
      4、将权重施加于X3中,得到新的 X∈(C, H, W),即y3

    • 输出y:y = 1/3 (y1 + y2 + y3)

  • 参数复杂度分析

    下图体现了本文模型增加的参数可忽略。其中,r:MLP(CBAM的通道注意力)的缩减因子;k:二维卷积核的大小(k<<C)

image-20201028155436022

实验结果

  • 图像分类

image-20201028160056685.png

  • 目标检测

    • image-20201028160212925

    • image-20201028160259664

消融研究

  • image-20201028160509114