[论文][表情识别]Region Attention Networks

论文基本情况

发表时间及刊物/会议： 2019 TIP

问题背景

遮挡和姿态变化是表情识别需要解决的两大难题，但是目前没有关于姿态变换和遮挡的表情识别数据集。

论文创新点

（1）在现有的表情识别数据集选取了涉及姿态变化和遮挡的图片，并标注了遮挡类型以及姿态变化角度。具体来说，论文选取了RAF-DB，FerPlus，AffectNet三个数据集的测试集，每个数据集分别抽取了部分含遮挡，姿态变化>30度，姿态变化>45度三种类型的图片，分别形成了三种测试集。

（2）搭建Region Attention Network (RAN)网络模型，来获取姿态变化或遮挡表情中的重要区域。
（3）提出region biased loss（RB loss）鼓励网络给重要区域更高的权重。

网络结构

RAN主要包含三个部分：
（1）裁剪和特征提取模块
（2）自注意力模块
（3）relation-attention模块

裁剪和特征提取模块

通过固定位置裁剪、随机裁剪、基于人脸特征点等方法裁剪出$K$张图片，和原图一起共$K+1$张图片，一起送入同一个CNN网络进行特征提取。

对于固定裁剪，RAN共裁剪5张图片。分别以左上角，右上角为顶点，以中心偏下位置为中心，0.75为比例，裁剪出三张图片；以原图中心为中心，分别以0.9, 0.85为比例，裁剪出另外两张图片。
对于随机裁剪，RAN共裁剪$K$个区域，每张图片的裁剪比例为0.7～0.95。
对于基于landmark的裁剪，RAN使用MTCNN检测每个人脸图像的五个特征点，以特征点中心为中心，以$r$为半径，裁剪出$K$张图片。

注：本文的默认实验设置为固定裁剪。
原图$I_0$以及裁剪后的图片$I_1, I_2, ...,I_k$分别送入同一个CNN网络，得到对应的特征，原图$I_0$的特征集合为公式中的$X$

自注意力模块

RAN使用ResNet18作为backbone，并将ResNet18在最后全连接层之前提取到的特征送入 self-attention 模块。公式（2）中的$F_i$表示第$i$张图片在全连接层之前的特征，$f,q^0$分别表示sigmoid激活函数和注意力机制中全连接层的参数。$\mu_i$表示得到的注意力权重。

通过子注意力模块，我们让更重要的裁剪区域对应的权重$\mu_i$更高。而通过公式（3）我们让同一张图片对应的多个特征根据权重$\mu_i$进行加权平均，计算出全局特征$F_m$。