
Lors de la prestigieuse conférence internationale ACL 2025 qui s’est tenue à Vienne, le jeudi 31 juillet dernier, un groupe de chercheurs djiboutiens et somaliens a remporté le Prix du Meilleur Article à l’atelier AfricaNLP. Leur innovation ? SomBERTa, le tout premier modèle d’intelligence artificielle monolingue pour le traitement automatique du somali, capable de détecter avec 95 % de précision les fausses nouvelles et les messages toxiques en ligne. Une avancée majeure pour l’inclusion numérique des langues africaines.

« Ce prix consacre deux années de travail acharné. Il prouve qu’en unissant nos forces — Djibouti avec son hub technologique et la Somalie avec sa richesse linguistique — nous pouvons développer des IA qui comprennent vraiment nos réalités », affirme le Dr Houssein Ahmed Assoweh, directeur du CRMN à l’Université de Djibouti. L’émotion du chercheur djiboutien est à la hauteur de la distinction reçue lors de l’un des événements scientifiques les plus prestigieux dans le domaine de l’intelligence artificielle.

La conférence ACL (Association for Computational Linguistics), organisée chaque année depuis 1962, est le plus grand rassemblement international de chercheurs en traitement automatique du langage. L’édition 2025, qui s’est tenue à Vienne, a réuni plus de 6 300 participants issus de plus de 100 pays.
En marge de ce sommet scientifique, s’est déroulé l’atelier AfricaNLP, entièrement consacré aux avancées en traitement des langues africaines. C’est dans ce cadre que l’équipe djibouto-somalienne a brillé, devançant des concurrents de renom venus d’Afrique du Sud, du Nigeria ou encore d’un consortium euro-africain.
L’article primé, intitulé « Détection des fausses nouvelles et messages toxiques en somali via l’IA générative », présente SomBERTa, un modèle de traitement du langage conçu exclusivement pour la langue somalie. Il s’agit du tout premier système monolingue de ce type, entraîné à partir d’un corpus massif de 160 millions de mots recueillis à partir de sources variées telles que les réseaux sociaux, les articles de presse ou encore la littérature locale.
L’innovation réside non seulement dans l’architecture même du modèle, mais aussi dans la création de deux bases de données annotées, inédites et précieuses. La première regroupe près de 1 900 publications soigneusement étiquetées selon leur degré de véracité — vraies ou fausses —, tandis que la seconde contient plus de 3 000 commentaires classés selon leur niveau de toxicité. Ces ressources ont été développées avec le concours de linguistes et de datascientists somaliens, issus notamment de l’Université Jamburiya et de la Somali National University, assurant ainsi une annotation culturelle et linguistique parfaitement adaptée.
Les résultats obtenus sont impressionnants : SomBERTa affiche une précision de 95 % dans la détection de fausses nouvelles, dépassant nettement les performances des modèles multilingues dominants. Cette performance s’explique par la focalisation exclusive sur une seule langue et par la qualité exceptionnelle des données d’entraînement, annotées par des locuteurs natifs. Le travail mené par les chercheurs de Djibouti et de Somalie répond à un double objectif. D’abord, il vise à combler un vide criant : bien que la langue somalie soit parlée par plus de 23 millions de personnes à travers la Corne de l’Afrique et au-delà, elle demeure largement absente des technologies de traitement du langage. Ensuite, le projet s’inscrit dans une volonté de bâtir un écosystème régional innovant, en associant les compétences en intelligence artificielle portées par le CRMN de Djibouti à l’expertise linguistique des institutions somaliennes.
Mais au-delà de l’aspect scientifique, les chercheurs ont tenu à démontrer que les solutions technologiques développées localement, par des Africains et pour des Africains, peuvent être non seulement efficaces, mais également compétitives au niveau international. Leur collaboration prouve qu’il est possible de produire des outils à fort impact social à partir de ressources régionales, sans dépendre systématiquement des approches dites «universelles » proposées par les grandes entreprises technologiques.
Parmi les 60 articles en compétition à l’atelier AfricaNLP, certains projets présentaient des avancées notables. Malgré cette concurrence relevée, le projet SomBERTa s’est distingué par sa singularité méthodologique, la rigueur de son évaluation, et surtout son impact social immédiat dans une région confrontée à une prolifération alarmante des fausses informations et des discours haineux, en particulier en ligne.
En privilégiant une approche monolingue, ciblée et culturellement contextualisée, les chercheurs ont mis en lumière les limites des modèles universels et prouvé la pertinence d’une démarche enracinée dans les réalités africaines.
L’équipe annonce d’ores et déjà son intention de déployer SomBERTa en open-source, afin que les médias, les organisations de la société civile et les acteurs de la gouvernance locale puissent s’en saisir comme d’un outil de lutte contre la désinformation et les contenus toxiques.