Méthodologie d'annotation
Cogite applique une méthodologie d'annotation structurée en quatre piliers : guidelines précises, double annotation, contrôle qualité statistique, et calibration continue de l'équipe. Cette page documente nos standards pour nos clients qui veulent comprendre en profondeur comment nous opérons.
1. Guidelines d'annotation
Chaque projet démarre par la rédaction conjointe (avec votre équipe ML) d'un document de guidelines. Ce document de référence couvre :
- La taxonomie des classes/labels à utiliser
- La définition précise de chaque classe avec exemples positifs et négatifs
- Les edge cases documentés (cas limites, ambiguïtés)
- Les conventions de format (JSON, COCO, Pascal VOC, JSONL)
- Les critères de qualité quantitatifs (IoU minimum, F1-score cible, etc.)
2. Double annotation systématique
Sur tous nos projets en plan Production, chaque échantillon est annoté indépendamment par deux annotateurs. Les annotations divergentes sont arbitrées par un troisième annotateur senior. Cette redondance est essentielle pour la qualité finale et permet de mesurer l'inter-annotator agreement.
3. Métriques de qualité
Nous mesurons systématiquement :
- Inter-Annotator Agreement (IAA) via le coefficient kappa de Cohen (cible : κ > 0.85)
- IoU moyen sur les bounding boxes et masques de segmentation
- Précision/rappel sur les classifications
- Temps moyen par annotation (efficacité)
- Taux d'erreur détecté en QA review
Ces métriques sont communiquées dans un rapport hebdomadaire envoyé à votre équipe ML.
4. Calibration continue
Chaque semaine, nos annotateurs participent à des sessions de calibration où ils discutent des cas difficiles rencontrés. Ces sessions sont animées par le chef de projet IA et permettent d'affiner collectivement la compréhension des guidelines. C'est aussi l'occasion de faire remonter au client toute ambiguïté nécessitant une clarification.
Outils utilisés
Nous travaillons avec les principaux outils d'annotation du marché :
- Label Studio (open source) — notre outil par défaut
- CVAT — pour la vidéo et la segmentation 3D
- Labelbox, V7, Encord — sur demande client
- Outils propriétaires client — nous nous adaptons à votre plateforme
Formats de livraison
Nous livrons dans le format de votre choix : JSON, COCO, Pascal VOC, JSONL, YOLO, MS COCO Keypoints, CSV, ou tout format propriétaire spécifié dans le cahier des charges. Les livraisons sont accompagnées d'un dataset card documentant la composition, les statistiques de qualité et les conventions utilisées.