URL: https://arxiv.org/abs/1906.05990 https://github.com/CompVis/metric-learning-divide-and-conquer

TL;DR

CVPR 2019 介绍了通过分治的方法来更好的学习图像的表示并聚类。

Dataset

Stanford Online Products: 图片聚类数据集 CARS196: 196种汽车,前98类训练后98类测试,本文没使用边界框标注。 CUB200-2011: 200种鸟类,前100种训练后100种测试,也不使用边界框标注。 In-shop Clothes Retrieval: 包含很多种衣服的图片集,作者参考文献选择了一部分测试集。 PKU VehicleID: 包含很多种车的图片集,由于很多不同类的车有同样的框架而带来挑战。作者按图片尺寸划分为小中大三部分。

Algorithm

分治算法分为划分和统治两部分。 * 划分 > 用K-means按照Embeding(由resnet等得到)的距离,将原始数据分成K类。 > 为每一类构建一个学习算法,学习这一类的表示。 > 如果embeding维度是d,那么每个学习算法输出d/K。 * 统治 > 使用三元损失函数轮流训练每一个学习算法(作者表示效果与损失函数选择无关)。 > 每隔T轮,重新优化聚类结果。 > 最终将所有学习者输出共d维合并作为图片的Embeding。

Experiment Detail

image 在介绍的5个数据集上,本文的模型都成为了最佳模型。 这里主要有K和T两个超参数,以及聚类位置的一些调整。 其中T作者选择了2,K做了实验8是最好的。 作者进一步进行了消融实验,验证了划分的重要性。 其中用embeding划分比用真是label划分效果更好。 image

Thoughts

这种方法约束了每个子学习算法的参数空间,是高效的。但分开训练比一起训练取得更好但效果是不是因为这种划分和隔离带来了正则化但效果?