Crowd labelling
Le crowd labelling consiste à externaliser la phase d'étiquetage des données, le labeling auprès de centaines/milliers de personnes, externes à l'équipe de data scientists.
Pour entraîner des modèles d’intelligence artificielle (à reconnaître le contenu d’image, le sujet ou la tonalité d’un email de client…), il est nécessaire de disposer de grandes quantités de données (des images, des messages de clients…) et de correctement les étiqueter (leur associer des étiquettes ou labels afin que les modèles puissent savoir que sur le jeu de données d’entraînement, c’est un chat, un chien ou une girafe qui figure sur la photo. Sur cette base, le modèle via un algorithme adapté, identifie ses propres critères lui permettant (presque) à coup sûr de reconnaitre ensuite sur une nouvelle photo, un chien, un chat ou une girafe.
Mais le travail d’étiquetage (de labelling) est très consommateur en temps et en expertise. Le temps et les experts n’étant pas toujours disponibles en interne, le responsable en charge de l’élaboration du modèle peut externaliser l’étiquetage des données auprès de centaines, milliers ou même dizaine de milliers de personnes.
Il peut confier l’étiquetage des données à des plateformes de crowdsourcing généralistes comme Amazon Mechanical Turk ou Platform.ai.
- Le crowd labelling peut uassi être réalisé en interne (GRDF a eu recours au crowd labelling interne pour l’élaboration d’un système de classification d’images).
- Le crowd labelling a ses détracteurs qui lui adressent 5 reproches.
- Il est inadapté aux opérations de labelling complexes
- Il n’est pas adapté aux domaines qui requiert une réelle expertise
- Il est difficile de trouver des milliers de personnes ayant l’expertise du sujet
- Le niveau de qualité d’étiquetage varie d’une personne à l’autre