所有文章 > 正文

CVPR 2020 | HFE: 多层级的特征构建方式解读

作者: 学术头条

时间: 2020-06-22 10:05

在 CVPR 2020 上,商汤城市计算团队提出了一个针对属性分类的多层次特征的构建方式,即利用身份(ID)信息辅助构建多层次的特征,该工作为特征构建方式提供了新的思路。

【导读】在 CVPR 2020 上,商汤城市计算团队提出了一个针对属性分类的多层次特征的构建方式,即利用身份(ID)信息辅助构建多层次的特征,该工作为特征构建方式提供了新的思路。相比于已有的属性分类方法,HFE 在特征表示和性能指标上均有显著优势。

论文标题:Hierarchical Feature Embedding for Attribute Recognition

动机

直接使用 Cross Entropy Loss 训练的卷积神经网络分类,只是把同一类的特征聚拢到一起,对于类内没有约束。我们在带有 ID 信息的属性数据集上进行实验,只使用属性标签进行分类时,发现类内分布非常杂乱,同一个 ID 的图片会分散在类内的各个位置。这说明只使用属性标签训练的分类网络,无法正确的将 ID 相同的图片在特征空间上映射到足够近的距离,因此其特征表达不够稳定,容易受到场景变化等因素的干扰,在输入发生变化时,特征会发生比较大的偏移,增加了分类错误的可能性。我们的方法在此处做出改进,使用 ID 和属性标签作为两个层级的监督,在特征空间里构建多层级的逻辑结构,以提高模型的表征能力。该工作的研究动机在于:
1. 利用身份信息来限制同一个人的不同场景、不同角度、不同姿态的样本特征聚集地更紧密,使特征对于场景、角度、姿态等的变化更鲁棒。2. 通过身份的限制,属于同一个 ID 的简单样本可以把本来难学的困难样本在特征空间上拉近,从而使困难样本更容易学习。3. 利用身份的信息来构造层次性的属性特征空间,避免把两种特征简单地嵌入到同一特征空间,而是统一到属性的特征空间,使构造的特征空间更合理。如下图所示:

整体框架

我们提的方法整体框架如下图,主要由一个骨干网络,加多个属性分支组成。共享的骨干网络用来学习所有属性的共同特征,而每个单独的属性分支用来学习各个属性各自的特征。

对于损失函数,首先我们沿用传统的方法,采用交叉熵(Cross Entropy, CE)损失函数进行属性分类,表示为 LCE

在 CE 基础上结合我们设计的多层次特征损失函数(LHFE),总的损失函数可以写成如下所示。这里 w 表示权重。

多层次特征损失函数

多层次特征损失函数主要由两个三元组组成,一个是传统的类间三元组(Linter),如下。

为了形成细粒度的多层次的特征空间,我们利用身份信息构建类内三元组(Lintra),如下。

结合上述的 Linter 和 Lintra,我们可以同时维护类间和类内的特征空间。如下图所示,通过五元组的限制,我们可以维护一个多层级的相对距离,从而达到构建层次化的特征空间的目的。

绝对边界正则项

上述的损失函数虽然能同时维护类间特征和类内特征,但是只考虑了相对距离。从绝对距离角度上看,并不能保证在整个训练集中,锚样本和正样本的距离都小于锚样本和负样本的距离。为此,我们设计了绝对边界正则项(Absolute Boundary Regularization,ABR)如下:

因此我们的多层次特征损失函数(LHFE)由上述Linter、Lintra和 LBR 三项组成。

动态权重

在训练初始的时候得到的特征空间并不可靠,由于五元组的选择依赖于特征空间,如果一开始就用较大的权重,可能会带来噪音。所以我们为上述损失函数设计了一个动态权重,通过权重动态增大,使特征空间慢慢地从原始的状态转向层次化的状态。

这里 T 表示整个训练的迭代次数,而 iter 表示当前的迭代次数。w0 是一个预先设置好的常数。

实验结果

本文使用了两个行人属性数据集:Market 1501[1] 和 Duke[2],和一个人脸属性数据集:CelebA[3],进行了实验。在三个数据集上的实验结果表明,HFE 比现有的最先进的方法更具竞争力,如下表所示:

为了进一步分析各个组件的效果,我们在 market 1501 上做了详尽的对比实验,如下表所示,可以看到每个部分都是有各自的提升效果的。

为了直观地观察特征空间的变化,我们对一个属性在不同 loss 下的特征空间进行了可视化,如下图所示。可以看到,每增加一个组件,类内的特征都更紧密,而类间的特征距离更远,界限更清晰。而且 HFE 确实可以形成更细粒度的类内特征空间,同时让类内更紧凑,类间更清晰,满足我们的预期。

下图为属性可视效果对比,可以看出,对于属性比较清晰可见时,三个方法都能判断正确;而当遮挡发生或图像模糊时,CE 和 APR[4] 出现错误预测的概率较高,HFE 却还是能预测正确。 

传送门

点击查看论文原文

欢迎感兴趣的朋友阅读和交流。

References

[1] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE international con- ference on computer vision, pages 1116–1124, 2015.

[2] ZhedongZheng,LiangZheng,andYiYang.Unlabeledsam- ples generated by gan improve the person re-identification baseline in vitro. In Proceedings of the IEEE International Conference on Computer Vision, pages 3754–3762, 2017.

[3] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of the IEEE international conference on computer vision, pages 3730–3738, 2015.

[4] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, Zhi- lan Hu, Chenggang Yan, and Yi Yang. Improving person re-identification by attribute and identity learning. Pattern Recognition, 2019.

往期回顾:

清华发布《2020年中国人工智能产业格局》,见证398家AI企业的蜕变与突破!

AI诗人能像莎士比亚一样写作,文字工作者们,颤抖吧!

收录160+篇文章!清华唐杰团队详解自监督学习

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多