Datasets open source

Notre contribution à la recherche IA

Cogite croit profondément que les langues et cultures africaines francophones méritent d'être mieux représentées dans les modèles d'IA mondiaux. C'est pourquoi nous publions périodiquement des datasets open source librement utilisables pour la recherche académique et le développement open source.

Datasets disponibles

cogite-fr-african-sentiments (à venir)

Dataset de 20 000 phrases en français africain annotées en sentiment, couvrant les variantes camerounaise, ivoirienne, sénégalaise et congolaise. Idéal pour le fine-tuning de modèles de sentiment analysis francophones.

Licence : CC-BY-SA 4.0 · Disponibilité : Q3 2026

cogite-fr-mobile-money-ner (à venir)

Dataset de NER (Named Entity Recognition) spécialisé sur le domaine du mobile money en français africain : entités opérateurs, types de transactions, devises, lieux. 8 000 phrases annotées.

Licence : CC-BY 4.0 · Disponibilité : Q4 2026

cogite-bilingual-codeswitch (à venir)

Dataset de phrases mêlant français et anglais (code-switching), un phénomène linguistique répandu en Afrique anglophone et au Cameroun bilingue. 12 000 phrases avec annotation token-level de la langue.

Licence : CC-BY 4.0 · Disponibilité : Q1 2027

Pour la communauté scientifique

Si vous êtes chercheur ou doctorant et souhaitez accéder en avant-première à ces datasets, ou si vous voulez nous proposer un partenariat de recherche, contactez notre équipe. Nous accordons un accès anticipé aux projets de recherche dont les résultats sont publiés en open access.

Pourquoi ces datasets ?

Les modèles d'IA actuels sont massivement entraînés sur des données anglophones et occidentales. Les biais qui en résultent — culturels, linguistiques, économiques — sont documentés mais peu corrigés. En contribuant à ces datasets francophones africains, Cogite participe à un effort collectif pour rendre l'IA plus inclusive, plus représentative, et donc plus utile aux 280 millions de francophones d'Afrique.