Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Vo, Huy V.; Khalidov, Vasil; Darcet, Timothée; Moutakanni, Théo; Smetanin, Nikita; Szafraniec, Marc; Touvron, Hugo; Couprie, Camille; Oquab, Maxime; Joulin, Armand; Jégou, Hervé; Labatut, Patrick; Bojanowski, Piotr

Computer Science > Machine Learning

arXiv:2405.15613 (cs)

[Submitted on 24 May 2024 (v1), last revised 28 Jun 2024 (this version, v2)]

Title:Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Authors:Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

View PDF HTML (experimental)

Abstract:Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of $k$-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data. Code is available at this https URL.

Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2405.15613 [cs.LG]
	(or arXiv:2405.15613v2 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2405.15613

Submission history

From: Van Huy Vo [view email]
[v1] Fri, 24 May 2024 14:58:51 UTC (4,846 KB)
[v2] Fri, 28 Jun 2024 09:22:38 UTC (4,700 KB)

Computer Science > Machine Learning

Title:Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators