ChatGPT 4o est il capable de réussir un test d’histoire de niveau doctorat ?

Date:

Un test mené sur des modèles d’intelligence artificielle avancée, tels que ChatGPT-4 Turbo, Llama et Gemini, a révélé des lacunes importantes dans leur capacité à traiter des questions complexes d’histoire. Cette étude, présentée lors de la conférence NeurIPS à Vancouver, souligne que, malgré leurs performances dans certains domaines, les intelligences artificielles actuelles peinent à atteindre un niveau de connaissance comparable à celui requis pour un examen de doctorat en histoire.

Des résultats en demi-teinte pour les modèles avancés

Les chercheurs ont soumis les modèles à une évaluation exigeante basée sur le Seshat Global History Databank, une base de données qui compile des connaissances historiques sur plus de 600 sociétés à travers 36 000 points de données. Le modèle ayant obtenu le meilleur résultat, GPT-4 Turbo, n’a atteint qu’une précision équilibrée de 46 %, à peine au-dessus du hasard. Ce score souligne que l’intelligence artificielle actuelle reste inadaptée aux analyses profondes et aux nuances nécessaires dans le domaine de l’histoire.

Maria del Rio-Chanona, professeure assistante à University College London et co-auteure de l’étude, explique : « L’histoire n’est pas qu’une suite de faits. Elle nécessite des interprétations complexes, ce qui pose un défi significatif pour ces modèles. »

Une intelligence artificielle encore très spécifique à certains domaines

Cette étude met en évidence que les performances des modèles d’intelligence artificielle sont fortement dépendantes du domaine d’application. Bien que ces outils aient démontré leur efficacité dans des champs tels que le droit ou la programmation, ils montrent leurs limites lorsqu’il s’agit de traiter des connaissances historiques globales.

Peter Turchin, directeur du groupe de recherche sur la complexité sociale au Complexity Science Hub (CSH), note : « Les modèles réussissent là où les données sont bien structurées et abondantes, mais ils peinent à raisonner sur des sujets nécessitant des preuves indirectes ou une analyse critique. »

Disparités géographiques et temporelles dans les résultats

L’évaluation des modèles révèle des disparités marquées selon les régions géographiques et les périodes historiques. Par exemple, les modèles ont obtenu de meilleurs résultats sur des questions relatives à l’histoire ancienne (8 000 à 3 000 avant notre ère), mais leurs performances se sont effondrées pour les périodes plus récentes, notamment après 1 500 de notre ère.

De plus, les modèles ont affiché des biais importants selon les régions du monde. OpenAI s’est mieux débrouillé pour l’Amérique latine et les Caraïbes, tandis que Llama a montré une légère supériorité sur l’Amérique du Nord. En revanche, les deux ont échoué dans leur traitement de l’histoire de l’Afrique subsaharienne et de l’Océanie. Ces lacunes reflètent des biais dans les données d’entraînement, qui tendent à privilégier certaines perspectives historiques tout en négligeant d’autres.

De meilleures performances sur les systèmes juridiques, mais des faiblesses sur les discriminations

L’étude a également comparé les performances des modèles sur différentes thématiques historiques. Les modèles ont obtenu leurs meilleurs scores sur des sujets liés aux systèmes juridiques et à la complexité sociale. Cependant, ils ont montré des faiblesses marquées sur des questions relatives aux discriminations et à la mobilité sociale. Ces sujets requièrent souvent une compréhension contextuelle et des nuances que les modèles ne parviennent pas encore à maîtriser.

L’Intelligence artificielle générative : Pourquoi les TPE-PME françaises hésitent-elles à franchir le pas ?

Vers une amélioration des outils et des données

Les chercheurs, issus de diverses institutions telles que le CSH, l’Université d’Oxford et l’Institut Alan Turing, travaillent à affiner le benchmark utilisé pour évaluer ces modèles. Parmi les axes d’amélioration figurent l’élargissement des données pour inclure davantage de régions sous-représentées, notamment dans le Sud global, et l’intégration de questions historiques encore plus complexes.

Jakob Hauser, premier auteur de l’étude et scientifique résident au CSH, précise : « Nous souhaitons tester les prochains modèles, tels que o3, afin de voir s’ils peuvent combler les lacunes identifiées. L’objectif est d’améliorer à la fois la précision des réponses et la gestion des biais. »

Implications pour les chercheurs et les développeurs

Cette étude offre des perspectives intéressantes pour les historiens et les développeurs d’intelligences artificielles. Pour les chercheurs en sciences humaines, ces résultats permettent de mieux comprendre les forces et les limites des modèles actuels, afin de les utiliser de manière adaptée dans leurs travaux. Pour les développeurs, ils mettent en lumière les domaines nécessitant des ajustements, notamment pour atténuer les biais régionaux et améliorer la capacité des modèles à traiter des questions complexes.

Des outils prometteurs, mais encore immatures

Les résultats de cette étude soulignent que, bien que les modèles d’intelligence artificielle aient fait des progrès impressionnants dans certains domaines, ils sont encore loin de pouvoir remplacer une expertise humaine approfondie dans des disciplines comme l’histoire. Ils peuvent servir de support pour des recherches factuelles de base, mais leur capacité à interpréter et à analyser des événements historiques demeure insuffisante pour l’instant. Les efforts actuels pour affiner ces outils offrent néanmoins un potentiel considérable pour les recherches futures.

Source de l’article : https://nips.cc/virtual/2024/poster/97439

Notre site est un média approuvé par Google Actualité.

Ajoutez Media24.fr dans votre liste de favoris pour ne manquer aucune news !

Nous rejoindre en un clic
Suivre-Media24.fr

Eric GARLETTI
Eric GARLETTIhttps://www.eric-garletti.fr/
Je suis curieux, défenseur de l'environnement et assez geek au quotidien. De formation scientifique, j'ai complété ma formation par un master en marketing digital qui me permet d'aborder de très nombreux sujets.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Articles connexes

Le géant français du rail fonce à la rescousse de l’Allemagne pour moderniser son réseau ferroviaire via un contrat de 600 millions d’euros

Alstom et Deutsche Bahn signent un contrat de 600 millions d'euros pour révolutionner le réseau ferroviaire allemand. Alstom, leader...

Ce cousin des dinosaures pourrait inspirer de nouveaux matériaux pour avion grâce à la découverte d’une structure complexe dans ses os

Les os de ses cousins des dinosaures pourraient inspirer des avions plus légers et plus résistants. Les phénomènes naturels...

Dans les traces du projet de Grenoble, les Etats-Unis placent de grands espoirs dans ce réacteur à fusion nucléaire stellerator

La plus grande installation de fusion de type Stellarator au monde pourrait voir le jour dans le Tennessee. Type...

Des preuves de cannibalisme il y a 18 000 ans découvertes en Pologne

Des recherches récentes menées sur les restes humains de la grotte de Maszycka, en Pologne, révèlent des indices...