Re-labeling ImageNet（CVPR 2021, Naver）

paper：Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels

official implementation：GitHub - naver-ai/relabel_imagenet

背景

ImageNet 数据集是现代计算机视觉领域的重要基准，广泛用于图像分类模型的训练和评估。然而，ImageNet 存在标签噪声问题，许多图像实际上包含多个类别，但原始数据集中只提供单标签注释。这种单标签的设置在训练和评估过程中都会引入噪声，影响模型性能。

出发点

本文的出发点是解决 ImageNet 数据集中标签噪声的问题，特别是图像中包含多个类别但只有单标签注释的情况。研究人员提出重新标注 ImageNet 训练集，以多标签和定位标签的方式提供更准确的监督信号。

创新点和解决的问题

本文的创新点如下

重新标注策略ReLabel：使用强大的图像分类器重新标注 ImageNet 训练集，生成多标签和定位标签。
LabelPooling 训练框架：提出了一种新的训练框架，利用定位多标签来提高模型训练的准确性和鲁棒性。

解决了如下问题

标签噪声：解决 ImageNet 数据集中标签噪声的问题，使得每个图像的注释更准确。
随机裁剪问题：在使用随机裁剪数据增强时，单标签可能导致裁剪区域与原始标签不匹配，引入错误的监督信号。

方法介绍

本文提出了一种新的重新标注的策略 ReLabel，从而在ImageNet训练集上获得像素级的ground truth标签。Label maps有两个特点：1）多类别标签 2）定位标签。Label maps是从一个machine annotator得到的，它是一个在额外的数据上训练的强大的图像分类器。此外作者还提出一种新的训练框架 LabelPooling 来使用这种定位多类别标签训练分类模型。

ReLabel

ReLabel的具体过程如图A1所示，在传统的分类模型中，最后一个stage的输出特征图通过全局平均池化和一个全连接层得到输出的shape为1x1xC，其中C是类别数，然后经过softmax并取argmax得到最终预测结果。而本文提出的ReLabel去掉了全局平均池化，直接用一个1x1卷积得到输出label map的shape为HxWxC，这样就得到了一个全卷积网络（这里和热力图CAM有点像，关于CAM的介绍见CAM: Class Activation Mapping（CVPR 2016）速读），这里的1x1卷积和全连接层是完全相同的。这样就得到了像素级的预测。

这里ReLabel的网络我们称之为machine annotator，它是一个在额外数据集上（例如JFT-300M、InstagramNet-1B）训练的性能强大的分类模型，这个过程可以离线进行并且是一次性的，我们将对ImageNet得到的所有label maps保存到本地，然后在训练时直接加载就可以使用，而不用像蒸馏那样，每个训练样本都需要在teacher model中forward一次得到预测结果。

以EfficientNet-L2作为machine annotator为例，它的输入分辨率为475x475，最终得到的label map维度为 \(L\in \mathbb{R}^{15\times 15\times 1000}\)，对于包含 \(1.28\times 10^6\) 张图片的ImageNet来说保存所有label maps大概需要1TB的存储空间。但幸运的是对于每张图片像素级的预测除了top-k类别外其余的几乎都为0，因此为了节省存储空间我们可以只保存前几位的预测结果比如top-5，这样只需要大概10GB的存储空间。

LabelPooling

在得到了密集多标签预测结果后，我们就要用它来训练目标网络，为此作者提出了一种新的训练方法LabelPooling，它在训练过程中考虑到了局部的ground truth。在原始的ImageNet中一张图片只有单个标签，但图片中经常包含多个物体，而random crop是训练分类模型经常使用的一种增强方法，当crop部分包含其它目标或只包含部分ground truth时，用原始的标签训练网络会带来巨大的噪声干扰，如下图所示。

LabelPooling则考虑到了标签的位置性，图3展示了LabelPooling和传统ImageNet监督训练的区别，具体来说因为pre-computed label map是像素级的ground truth，在训练时根据random crop的坐标通过RoIAign从label map中可以得到localized ground truth，然后经过global average pooling和softmax就得到了最终的localized multi-class标签。