Un test mené sur des modèles d’intelligence artificielle avancée, tels que ChatGPT-4 Turbo, Llama et Gemini, a révélé des lacunes importantes dans leur capacité à traiter des questions complexes d’histoire. Cette étude, présentée lors de la conférence NeurIPS à Vancouver, souligne que, malgré leurs performances dans certains domaines, les intelligences artificielles actuelles peinent à atteindre un niveau de connaissance comparable à celui requis pour un examen de doctorat en histoire.
Des résultats en demi-teinte pour les modèles avancés
Les chercheurs ont soumis les modèles à une évaluation exigeante basée sur le Seshat Global History Databank, une base de données qui compile des connaissances historiques sur plus de 600 sociétés à travers 36 000 points de données. Le modèle ayant obtenu le meilleur résultat, GPT-4 Turbo, n’a atteint qu’une précision équilibrée de 46 %, à peine au-dessus du hasard. Ce score souligne que l’intelligence artificielle actuelle reste inadaptée aux analyses profondes et aux nuances nécessaires dans le domaine de l’histoire.
Maria del Rio-Chanona, professeure assistante à University College London et co-auteure de l’étude, explique : « L’histoire n’est pas qu’une suite de faits. Elle nécessite des interprétations complexes, ce qui pose un défi significatif pour ces modèles. »
Une intelligence artificielle encore très spécifique à certains domaines
Cette étude met en évidence que les performances des modèles d’intelligence artificielle sont fortement dépendantes du domaine d’application. Bien que ces outils aient démontré leur efficacité dans des champs tels que le droit ou la programmation, ils montrent leurs limites lorsqu’il s’agit de traiter des connaissances historiques globales.
Peter Turchin, directeur du groupe de recherche sur la complexité sociale au Complexity Science Hub (CSH), note : « Les modèles réussissent là où les données sont bien structurées et abondantes, mais ils peinent à raisonner sur des sujets nécessitant des preuves indirectes ou une analyse critique. »
Disparités géographiques et temporelles dans les résultats
L’évaluation des modèles révèle des disparités marquées selon les régions géographiques et les périodes historiques. Par exemple, les modèles ont obtenu de meilleurs résultats sur des questions relatives à l’histoire ancienne (8 000 à 3 000 avant notre ère), mais leurs performances se sont effondrées pour les périodes plus récentes, notamment après 1 500 de notre ère.
De plus, les modèles ont affiché des biais importants selon les régions du monde. OpenAI s’est mieux débrouillé pour l’Amérique latine et les Caraïbes, tandis que Llama a montré une légère supériorité sur l’Amérique du Nord. En revanche, les deux ont échoué dans leur traitement de l’histoire de l’Afrique subsaharienne et de l’Océanie. Ces lacunes reflètent des biais dans les données d’entraînement, qui tendent à privilégier certaines perspectives historiques tout en négligeant d’autres.
De meilleures performances sur les systèmes juridiques, mais des faiblesses sur les discriminations
L’étude a également comparé les performances des modèles sur différentes thématiques historiques. Les modèles ont obtenu leurs meilleurs scores sur des sujets liés aux systèmes juridiques et à la complexité sociale. Cependant, ils ont montré des faiblesses marquées sur des questions relatives aux discriminations et à la mobilité sociale. Ces sujets requièrent souvent une compréhension contextuelle et des nuances que les modèles ne parviennent pas encore à maîtriser.
Vers une amélioration des outils et des données
Les chercheurs, issus de diverses institutions telles que le CSH, l’Université d’Oxford et l’Institut Alan Turing, travaillent à affiner le benchmark utilisé pour évaluer ces modèles. Parmi les axes d’amélioration figurent l’élargissement des données pour inclure davantage de régions sous-représentées, notamment dans le Sud global, et l’intégration de questions historiques encore plus complexes.
Jakob Hauser, premier auteur de l’étude et scientifique résident au CSH, précise : « Nous souhaitons tester les prochains modèles, tels que o3, afin de voir s’ils peuvent combler les lacunes identifiées. L’objectif est d’améliorer à la fois la précision des réponses et la gestion des biais. »
Implications pour les chercheurs et les développeurs
Cette étude offre des perspectives intéressantes pour les historiens et les développeurs d’intelligences artificielles. Pour les chercheurs en sciences humaines, ces résultats permettent de mieux comprendre les forces et les limites des modèles actuels, afin de les utiliser de manière adaptée dans leurs travaux. Pour les développeurs, ils mettent en lumière les domaines nécessitant des ajustements, notamment pour atténuer les biais régionaux et améliorer la capacité des modèles à traiter des questions complexes.
Des outils prometteurs, mais encore immatures
Les résultats de cette étude soulignent que, bien que les modèles d’intelligence artificielle aient fait des progrès impressionnants dans certains domaines, ils sont encore loin de pouvoir remplacer une expertise humaine approfondie dans des disciplines comme l’histoire. Ils peuvent servir de support pour des recherches factuelles de base, mais leur capacité à interpréter et à analyser des événements historiques demeure insuffisante pour l’instant. Les efforts actuels pour affiner ces outils offrent néanmoins un potentiel considérable pour les recherches futures.
Source de l’article : https://nips.cc/virtual/2024/poster/97439