基于半离散最优传输的长尾分类
Semi-Discrete Optimal Transport for Long-Tailed Classification
-
摘要:研究背景 近年来,计算机视觉技术的快速发展与大规模、高质量且平衡的数据集(如 ImageNet,COCO等)密不可分。与计算机视觉数据集的标签分布大致均匀不同,真实世界的数据往往呈现长尾分布,即头部类别数较少包含大多数样本,而尾部类别说多只包含少数样本。不平衡的数据集会导致深度学习方法性能不佳,因为神经网络的学习往往偏向于样本占比较大而类别个数较少的头部类。针对长尾分类问题,现有方法根据类别频率修正决策边界。然而,这类方法对标签敏感,实时在线训练模型时,每个类别的样本频率未知或在不同批次中动态变化,很容易过拟合尾部类别。目的 本篇论文的研究目标是基于半离散最优传输理论设计一种动态的损失函数OT-dynamic softmax,在训练网络模型时动态地调整决策边界,使得训练过程更加稳定且避免尾部类别过拟合问题。方法 半离散最优传输的本质是对源域进行胞腔分解,使得每一个连续的胞腔映射到一个离散的目标点,并且胞腔与目标点的测度相等。直观上,分类问题也可以看作一个特征空间的胞腔分解问题。分类网络通常由特征提取器和分类器两部分组成。特征提取器将图片数据从高维背景空间映射到低维特征空间。分类器将特征空间划分为不同的胞腔,使得相同类别的数据在同一个胞腔内。分类器的每个权重可以看作是一个目标点,类别的频率可以看作是目标点的离散测度。此时,每个胞腔都被映射到一个对应的类别,并且胞腔的测度等于类别的频率。因此,分类任务可以视为以连续特征空间为源域,分类器权重为离散目标域的半离散最优传输问题。数据不平衡导致决策边界偏向尾部类,通过离散Brenier定理,我们提出损失函数OT-dynamic softmax动态的调整决策边界,见算法1。结果 通过大量的比较实验和消融实验验证本文方法的有效性。如表1所示,在CIFAR数据集上,不同的平衡因子下,本文方法的量化结果高于基线模型和现有的方法。如表2,在不同的神经网络结构下,本文的结果也高于现有的长尾分类方法。如表3,在自然的长尾数据集上,本文的方法相比于现有方法也取得了一定的性能提升。如图1所示,我们的方法可以避免尾部类的过拟合以及使得训练过程更加稳定。如图2所示,相比于其他方法,我们的方法在特征空间的表示分布更加均匀,决策边界更加清晰。结论 本文中,我们把特征空间视为连续的源域,分类器的权重视为离散的目标点,从半离散最优传输的角度分析了长尾识别问题。分析表明,训练集数据的不平衡导致决策边界偏向尾部类。为此,我们基于最优传输提出了 OT-dynamic softmax 损失函数在训练中动态的调整决策边界。为使特征空间满足均匀分布,我们的方法结合了监督对比损失。广泛而全面的实验证明,我们的方法在长尾基准数据集上,包括CIFAR-10/100-LT、ImageNet-LT、iNaturalist 2018 和 Places-LT 等,优于现有的最先进方法。此外,我们注意到 OT-dynamic softmax 损失可以避免尾部类别的过拟合,并提高训练过程的鲁棒性。Abstract: The long-tailed data distribution poses an enormous challenge for training neural networks in classification. A classification network can be decoupled into a feature extractor and a classifier. This paper takes a semi-discrete optimal transport (OT) perspective to analyze the long-tailed classification problem, where the feature space is viewed as a continuous source domain, and the classifier weights are viewed as a discrete target domain. The classifier is indeed to find a cell decomposition of the feature space with each cell corresponding to one class. An imbalanced training set causes the more frequent classes to have larger volume cells, which means that the classifier’s decision boundary is biased towards less frequent classes, resulting in reduced classification performance in the inference phase. Therefore, we propose a novel OT-dynamic softmax loss, which dynamically adjusts the decision boundary in the training phase to avoid overfitting in the tail classes. In addition, our method incorporates the supervised contrastive loss so that the feature space can satisfy the uniform distribution condition. Extensive and comprehensive experiments demonstrate that our method achieves state-of-the-art performance on multiple long-tailed recognition benchmarks, including CIFAR-LT, ImageNet-LT, iNaturalist 2018, and Places-LT.