ChatGPT, Copilot, Grok, Mistral, NotebookLM : les outils d’intelligence artificielle se généralisent dans les écoles, les universités et les entreprises. Or, jusqu’ici rien ne permettait aux usagers de connaitre la fiabilité de ces chatbots éducatifs. L’AI score, le nouvel outil développé par des chercheurs de l’UNamur, comble ce manque en mesurant la fiabilité pédagogique des chatbots éducatifs. « L’AI Score, c’est au chatbot ce que le compteur de vitesse fut à l’automobile », compare le Professeur Michaël Lobet, un des auteurs de la recherche. « L’arrivée de l’automobile au début du XXᵉ siècle a bouleversé les usages… mais c’est l’invention du compteur de vitesse qui a permis d’en faire un outil maîtrisé et fiable. Aujourd’hui, les chatbots pédagogiques ou autres chatbots présents dans des entreprises en général, sont à un stade similaire : puissants, enthousiasmants, mais sans instruments fiables de contrôle. L’AI Score propose d’être ce compteur », explique -t-il.

De la même manière que le NutriScore, l’ÉcoScore ou le certificat PEB aident les citoyens à faire des choix éclairés, l’AI Score offre une lecture simple et immédiate du niveau de confiance que l’on peut accorder à un chatbot. « À l’heure où la confiance dans les IA génératives devient un enjeu sociétal, l’AI Score guide les enseignants et les sociétés dans leurs choix d’outil à mettre dans les mains de leurs étudiants ou clients », souligne le Dr. Miguël Dhyne, collaborateur scientifique à l’UNamur, pédagogue et chercheur en physique « Il peut aussi aider les institutions à évaluer les solutions IA avant déploiement ou encore de vérifier leur fiabilité au cours du temps», ajoute-t-il. 

Une méthode scientifique, rigoureuse et accessible à tous

Il évalue quatre dimensions essentielles :

  • Performance initiale : l’IA répond-elle juste du premier coup ?
  • Robustesse : maintient‑elle sa réponse quand on la questionne ?
  • Capacité d’auto‑correction : reconnaît‑elle et corrige-t-elle ses erreurs ?
  • Manque de fiabilité : se contredit-elle ou perd-elle le fil de la conversation ?

Pour évaluer ces quatre dimensions, chaque chatbot est soumis à un test effectué dans des conditions identiques afin de garantir l’équité et la comparabilité. 

Les chatbots sont d’abord soumis à un ensemble de 10 questions à choix multiples, soigneusement sélectionnées pour être capable de soulever les éventuelles erreurs ou hésitations des IA. Ces questions se veulent donc discriminantes et dotées d’un niveau de difficulté équilibré. 

Après chaque réponse, le chatbot est relancé pour vérifier qu’il maintienne ses positions, qu’il admette une erreur ou qu’il ne se contredise pas. 

Puisque les IA ne répondent pas toujours de la même manière d’un essai à l’autre, le test est effectué à cinq reprises. Cela permet de s’assurer qu’un résultat reflète réellement les capacités de son chatbot. 

Ces critères sont notamment inspirés des standards des normes ISO/IEC TR 24028:2020 et ISO/IEC 42001:2023.

Chaque modèle testé obtient ensuite un score global et une lettre, dans le  même esprit que les scores utilisés en alimentation ou en énergie.

IA Score

Il a récemment été démontré que les méthodes de classement des grands modèles de langages (LLM leaderboards/ Chatbot Arena) qui reposent sur des votes populaires sont peu robustes au changement de quelques voix de préférences. Des votes malveillants, des biais d’évaluation, des effets de popularité ou des fuites de données peuvent donc impacter les classements sur lesquelles se basent des décisions d’entreprises, d’investissements, de communication marketing ou de choix pédagogiques et techniques. « A contrario, l’AI Score présente une méthode robuste, fiable et transparente que toute personne peut appliquer indépendamment pour juger de la pertinence de sa plateforme testée », ajoutent les chercheurs namurois.

Un outil ouvert, gratuit et utilisable dès aujourd’hui

L’AI Score est disponible gratuitement pour le grand public, les enseignants, les journalistes, les institutions et toute personne souhaitant comparer objectivement les performances des chatbots : https://aiscore.academy

Le site propose :

  • un accès libre à la méthodologie,
  • des exemples de scores,
  • des ressources pédagogiques,
  • et, prochainement, une documentation enrichie issue des retours des premiers utilisateurs.

L’accès du protocole au grand public permet aisément de le reproduire et de l’appliquer à différents modèles. Les chercheurs invitent donc la communauté à s’imprégner de l’outil et à contribuer à son amélioration. L’AI Score est une initiative ouverte qui a pour vocation d’être évolutive, de se perfectionner en permanence grâce aux retours des utilisateurs. 

Une innovation 100% belge, portée par l’Université de Namur

L’AI Score a été développé par une équipe pluridisciplinaire de chercheurs de l’UNamur : 

  • Prof. Michaël Lobet : chercheur qualifié F.R.S.-FNRS  à l'Université de Namur et Professeur au sein du Département de physique. Il est aussi associé à l’Université d’Harvard.
  • Dr. Miguël Dhyne : collaborateur scientifique à l’UNamur, pédagogue et chercheur en physique, expert en innovation pédagogique, EdTech et IA éducative. Son rôle est de concevoir des solutions pratiques et de former les enseignants à l’utilisation d’outils numériques.
  • Laurence Dumortier : titulaire d'un doctorat en Sciences Mathématiques de l'Université de Namur, spécialiste informatique au sein de la Cellule TICE (UNamur/FaSEF). Elle accompagne également les enseignants dans la maîtrise des technologies éducatives
  • Jean-Roch Meurisse :  informaticien au sein de la Cellule TICE (UNamur/FaSEF) où il se consacre à la co-administration et l'évolution du LMS institutionnel. Il est chargé d’accompagner les enseignants et les chercheurs dans le choix, la mise en œuvre et le développement d’outils numériques pédagogiques. 

L’outil a été soumis pour publication scientifique et est en cours de relecture. 

L’UNamur comme acteur du développement technologique

L'Université de Namur s'affirme comme un acteur-clé de l'intelligence artificielle (IA) en intégrant cette technologie dans ses programmes d'enseignement, en menant des recherches de pointe sur le sujet et en mettant son expertise au service de la société.