Les modèles d’IA face aux humains
Où en sont les modèles les plus récents par rapport à l'intelligence humaine ?
Où en sont les modèles les plus récents par rapport à l'intelligence humaine ? Différentes études mesurent où se situent, par rapport à nous, les modèles les plus performants dans divers domaines.
Capacités supérieures à tous les humains
Jeux : Pour de nombreux jeux (Echecs, Go, Starcraft, Dota, Gran Turismo, etc.), l'IA surpasse le meilleur joueur humain.
Mémoire : Un humain peut retenir environ 7 éléments (comme des chiffres) à la fois. Gemini 1.5 Pro peut lire et mémoriser 99 % d'un texte de 7 millions de mots.
Vitesse de traitement : Les modèles d'IA peuvent lire des milliers de mots par seconde et écrivent bien plus vite que n'importe quel humain.
Vitesse d'apprentissage : Un modèle comme Gemini 1.5 Pro peut lire un livre entier en 30 secondes, apprendre une nouvelle langue et traduire des textes en un clin d'œil.
Volume de connaissances : GPT-4 a intégré bien plus de connaissances que n'importe quel humain, dans n'importe quel domaine, et peut même se souvenir avec précision d'adresses URLs.
Efficacité de stockage : GPT-4 a environ 1,7 billion de paramètres, contre 100 à 1000 fois plus pour les humains. Mais GPT-4 optimise et stocke des milliers de fois plus d'informations dans un nombre plus restreint de paramètres.
Capacités supérieures à la majorité des humains
Langage : Les meilleurs modèles peuvent traduire presque toutes les langues avec facilité, possèdent un vocabulaire surhumain et peuvent écrire dans de nombreux styles. Fin 2023, un roman généré par IA a même remporté un prix littéraire lors d'un concours national de science-fiction.
Créativité : L’IA surpasse 99 % des humains au Torrance Test of Creative Thinking, un test élaboré pour tester la fluidité, l'originalité et la flexibilité créatrice chez les individus. Cependant, ces tests sont limités et l'IA n'est pas encore assez autonome pour des projets plus complexes sur le long terme (par exemple, la création d'une entreprise).
Persuasion : Dans les cas où GPT-4 a eu accès à des informations personnelles avant le débat, le modèle a réussi à augmenter l'adhésion des participants aux arguments de leurs opposants de 81,7 % de plus par rapport à un débat commun. C'est presque deux fois plus persuasif qu'un humain.
QI : Pour les tests de QI verbaux, les meilleurs modèles surpassent 95 à 99 % des humains (score entre 125 et 155). Pour les tests de QI non verbaux (reconnaissance de motifs), comme le test Mensa, Claude 3 a été le premier modèle à dépasser la moyenne humaine avec un score de 101.
Recherche : GPT-4 peut mener des recherches chimiques en autonomie et DeepMind a créé une IA capable de résoudre un problème mathématique non résolu. Néanmoins, ces modèles demandent encore des interventions humaines et ne sont pas généralisables.
Art : Des images générées par IA ont remporté des concours d'art et même de photographie.
Connaissances spécialisées : Une étude démontre que GPT-4 obtient un score de 75 % au test d'auto-évaluation des connaissances médicales, dépassant la moyenne humaine située entre 65 et 75 %. Dans le domaine juridique, il surpasse 68 à 90 % des étudiants en droit à l'examen du barreau.
Programmation : GPT-4 code dans plus de 20 langages de programmation et peut même coder des jeux rudimentaires. Il résout de nombreux défis de codage, mais ses performances diminuent face à des problèmes plus complexes. Il se classe dans les 5 % du bas de la liste du classement de la compétition Codeforces. Un autre modèle, Devin, résout 13 % des problèmes de codage et peut gagner de l'argent sur la plateforme Upwork.
Cybersécurité : Des tests révèlent que GPT-4 peut pirater des sites web de manière autonome et surpasse 89 % des hackeurs dans une compétition. Heureusement, les modèles modernes échouent encore dans l'exécution de tâches cruciales comme l'auto-réplication autonome (voir ci-dessous).
Capacités inférieures à la majorité des humains
Dire « je ne sais pas » : Pratiquement tous les grands modèles de langage souffrent d'un problème « d'hallucination ». Ils inventent des informations plutôt que d'avouer qu'ils ne savent pas. Cette lacune, apparemment mineure, est en réalité cruciale. Elle rend ces modèles peu fiables et limite considérablement leur utilisation. Cependant, une étude prouve que les modèles plus volumineux « hallucinent » beaucoup moins que les plus petits.
Se faire passer pour un humain : GPT-4 parvient à convaincre 54 % de ses interlocuteurs qu'il est humain, contre 67 % pour de vrais humains. En d'autres termes, GPT-4 ne réussit pas encore systématiquement le test de Turing.
Dextérité : Aucun robot ne peut encore se déplacer comme un humain, mais on s'en rapproche. Le robot Atlas peut marcher, lancer des objets et faire des saltos. Le RT-2 de Google peut transformer des prompts en actions concrètes, par exemple, « déplacer la tasse vers la bouteille de vin ». Le robot Optimus de Tesla peut plier des vêtements et le robot bipède de Figure peut préparer du café.
Auto-réplication : Toutes les formes de vie sur Terre peuvent se reproduire. Les modèles d'IA pourraient théoriquement se propager d'un ordinateur à l'autre via Internet, mais cela nécessite des compétences qu'ils ne possèdent pas encore. Une étude de 2023 liste une série de 12 tâches nécessaires à l'auto-réplication. Les modèles d'IA testés n'en possèdent que 4 pour le moment. On préfère ne pas imaginer ce qui se passerait si un modèle d'IA réussissait à se propager sur le web.
Apprentissage continu : Les modèles actuels séparent l'apprentissage (entraînement) de l'exécution (inférence). Bien qu'ils puissent apprendre grâce au contexte, ils ne peuvent pas mettre à jour leurs paramètres pendant leur utilisation. Les humains, eux, apprennent et agissent simultanément. Cependant, plusieurs approches potentielles existent. Une étude de 2024 a détaillé certaines méthodes récentes pour implémenter un apprentissage continu.
Planification : Les modèles ne sont pas encore très performants en planification (par exemple, réfléchir à la meilleure façon d'empiler des blocs sur une table). Toutefois, les modèles plus volumineux obtiennent de meilleurs résultats que les plus petits.
Le point de non-retour
Au fil du temps et des progrès technologiques, nous sommes poussés à réévaluer constamment la précédente classification. Lorsque certaines capacités dangereuses seront atteintes, l'IA posera de nouveaux risques. À terme, l'IA surpassera chacun de nous dans tous les domaines imaginables. L'avènement d'une telle superintelligence pourrait précipiter le déclin de l'humanité.
Il est donc impératif de mettre en place un moratoire sur le développement de l'IA afin de prévenir cette éventualité.