L’intelligence artificielle serait-elle aussi faillible que l’esprit humain ? Une équipe de chercheurs a mis ChatGPT à l’épreuve dans une série de tests de prise de décision. Résultat : le modèle d’OpenAI montre des biais cognitifs similaires à ceux que l’on observe chez les humains. L’étude, publiée dans la revue Manufacturing & Service Operations Management, démontre que ces biais apparaissent de manière stable, quel que soit le scénario, et persistent même dans les versions les plus récentes du modèle.
Un protocole rigoureux pour tester les biais décisionnels
Les chercheurs ont soumis ChatGPT à 18 tests classiques de psychologie cognitive. Ces tests, bien connus des spécialistes, mesurent des biais comme :
- L’effet de surconfiance.
- Le rejet de l’ambiguïté.
- La préférence pour les informations confirmant une hypothèse.
- Le biais de conjonction (illustré par le célèbre “problème de Linda”).
Dans près de la moitié des cas, ChatGPT a réagi comme un humain, en reproduisant des erreurs de jugement bien documentées.
Mais l’IA n’est pas systématiquement biaisée. Elle échappe par exemple à certains pièges typiquement humains comme le biais du coût irrécupérable ou le déni des probabilités de base. Autrement dit, dans certaines situations, elle semble plus rationnelle que nous.
Performante sur les calculs, moins fiable sur les jugements
Lorsque la réponse est strictement mathématique, ChatGPT fournit des résultats excellents. Il sait gérer les probabilités, résoudre des équations et manipuler des modèles statistiques avec efficacité.
Mais dès que la situation comporte une part d’incertitude ou requiert une analyse qualitative, les réponses deviennent plus approximatives. Par exemple, lorsqu’on lui présente un dilemme éthique ou une décision fondée sur des préférences subjectives, l’IA tend à utiliser des raccourcis mentaux, comme le ferait un individu peu entraîné.
Ce phénomène s’explique en partie par la manière dont ces modèles sont entraînés : sur des données humaines, elles-mêmes imparfaites.
Une IA prudente, parfois trop
L’étude montre que ChatGPT adopte spontanément une posture de prudence :
- Il évite les décisions risquées, même si celles-ci pourraient offrir de meilleures retombées.
- Il surévalue ses propres performances, ce qui peut induire en erreur ses utilisateurs.
- Il recherche des informations confirmant sa première intuition, au lieu de considérer des hypothèses alternatives.
Ce comportement, bien que sécurisant, peut poser problème dans des environnements où l’exploration, l’innovation ou la remise en question sont nécessaires.
GPT-4 : plus précis, mais pas moins biaisé
Les chercheurs ont comparé les résultats obtenus avec GPT-3.5 et ceux de GPT-4. Verdict : le nouveau modèle est plus fiable sur les tâches analytiques, mais ses biais cognitifs sont parfois encore plus marqués.
Cela montre que l’amélioration des capacités de traitement ne suffit pas à éliminer les biais. L’architecture du modèle et les données utilisées pour l’entraînement jouent un rôle majeur. Et tant que les données sont humaines, les erreurs humaines y sont aussi encodées.
Des conséquences directes sur les décisions économiques
De plus en plus d’organisations s’en remettent à l’intelligence artificielle pour des décisions à fort impact : recrutement, crédit, sélection de projets, orientation stratégique. Or, si l’IA reproduit nos erreurs, elle peut institutionnaliser ces biais à grande échelle, sans qu’on ne les détecte facilement.
Les auteurs recommandent donc de considérer l’IA comme un collaborateur humain : il faut l’encadrer, l’évaluer régulièrement, et soumettre ses décisions à un contrôle qualité aussi rigoureux que s’il s’agissait d’un expert humain.
Que faire pour limiter ces biais ?
L’étude préconise plusieurs leviers d’action :
- Audits réguliers des décisions générées par IA.
- Entraînement de modèles spécialisés pour les tâches impliquant des jugements subjectifs.
- Évaluation comparative des différentes versions d’un modèle sur des cas concrets.
Un point essentiel ressort : chaque nouvelle version de l’IA doit être testée comme un nouveau collaborateur, avec ses propres forces et faiblesses. Rien ne garantit qu’un modèle plus récent soit systématiquement plus “juste” ou plus “neutre”.
Une IA ni parfaite, ni inhumaine
Ce que cette étude révèle, c’est que l’intelligence artificielle n’est ni un oracle, ni une machine froide totalement rationnelle. Elle est, dans certains contextes, très performante. Mais elle est aussi le reflet de nos façons de penser – avec leurs limites, leurs simplifications et leurs raccourcis.
Il ne faut donc pas attendre de l’IA qu’elle décide à notre place sans erreur. Mais il est possible de l’utiliser comme un miroir de nos propres logiques, pour mieux comprendre nos biais et, peut-être, apprendre à mieux les corriger.
Source de l’étude : https://pubsonline.informs.org/doi/full/10.1287/msom.2023.0279