Les risques existentiels liés à une superintelligence artificielle

Monteriez-vous dans un prototype d’avion dont les ingénieurs aéronautiques estiment qu’il a 14 % de chances de s’écraser ?

août 18, 2024

Traduit de l’anglais. Version originale : https://pauseai.info/xrisk

Les experts tirent la sonnette d'alarme

Les chercheurs en IA estiment qu’il y a en moyenne 14 % de risque que le développement d’une superintelligence artificielle, une IA surpassant de loin les capacités humaines, conduise à des « résultats catastrophiques » comme, par exemple, l'extinction de l'humanité.

Une lettre ouverte appelant à un moratoire dans le développement de l'IA, a été publiée en avril 2023 et a recueilli à ce jour plus de 33000 signatures, notamment de la part de nombreux chercheurs en IA et patrons d’entreprises du secteur numérique. Parmi les signataires, on retrouve des personnalités comme :

Stuart Russell, auteur de la bible en intelligence artificielle utilisée dans la plupart des études en IA : « Si nous continuons dans cette voie, nous allons finir par perdre le contrôle des machines »
Yoshua Bengio, pionnier de l'apprentissage profond, « père fondateur de l'IA », et lauréat du prix Turing : « Si une IA se rebelle, elle pourrait menacer l’humanité toute entière. (...) Il serait bon de commencer par interdire le développement des systèmes d’IA puissants dotés d’autonomie et de capacités d’action (disons au-delà des capacités de GPT-4) »

Mais ce n'est pas la première fois que l’on nous prévient des dangers existentiels de l'IA :

Stephen Hawking, physicien théoricien et cosmologiste : « Le développement d'une intelligence artificielle complète pourrait signifier la fin de la race humaine. »
Geoffrey Hinton, également « père fondateur de l'IA » et lauréat du prix Turing, a quitté Google pour lancer un message d’alerte concernant les risques de l'IA : « Nous sommes face à un risque existentiel »
Eliezer Yudkowsky, fondateur de MIRI (Institut de Recherche sur l’Intelligence des Machines) et à l’origine du concept même de sécurité de l'IA : « Si nous poursuivons dans cette voie, tout le monde va mourir »

Même les dirigeants et investisseurs des entreprises d'IA nous avertissent :

Sam Altman, le PDG d'OpenAI qui construit ChatGPT : « Il est probable que le développement d’une intelligence des machines dépassant celle des humains constitue la plus grande menace à la survie de l’espèce humaine »
Elon Musk, cofondateur d'OpenAI, SpaceX et Tesla : « L'IA peut potentiellement détruire la civilisation »
Bill Gates, cofondateur de Microsoft, qui possède 50 % d'OpenAI, a averti que « l'IA pourrait décider que les humains sont une menace »
Jaan Tallinn, investisseur principal d'Anthropic : « Aucun des chercheurs que j’ai rencontrés dans les laboratoires d’IA n’estime à moins de 1 % le risque de faire exploser la planète (en développant un modèle d’IA de nouvelle génération). Il est crucial de faire savoir aux gens qu’on joue avec leurs vies. »

Déclaration des leaders des trois principaux laboratoires d'IA et de centaines de scientifiques en IA, en mai 2023 :

« Réduire le risque d'extinction dû à l'IA devrait être une priorité mondiale au même titre que d'autres risques à l'échelle sociétale comme les pandémies et les guerres nucléaires. »

Ce qu'une superintelligence artificielle peut faire (ou ce qu’on peut lui demander faire)

Vous pensez peut-être qu'une superintelligence serait enfermée dans un ordinateur et donc incapable d’avoir un effet sur le monde réel. Cependant, nous avons tendance à donner aux systèmes d'IA accès à Internet, ce qui signifie qu'ils peuvent faire beaucoup de choses :

Pirater d'autres ordinateurs, y compris tous les smartphones, ordinateurs portables, parcs de serveurs, etc. Elle pourrait transformer les capteurs intégrés dans ces appareils en autant d’yeux et d’oreilles à utiliser, disposant ainsi de sens numériques partout.
Manipuler les gens à travers de faux messages, e-mails, virements bancaires, vidéos ou appels téléphoniques. Les humains pourraient devenir des extensions de l'IA, sans même s’en rendre compte.
Contrôler directement des appareils connectés à Internet, comme des voitures, des avions, des armes autonomes montées sur des robots ou même des armes nucléaires.
Concevoir des armes biologiques innovantes, par exemple en combinant des souches virales ou en utilisant le repliement des protéines, et en envoyant à un laboratoire l’ordre de les mettre en fabrication.
Déclencher une guerre nucléaire en arrivant à faire croire à des humains qu'un autre pays est en train de lancer une attaque nucléaire.

Le problème de l’alignement : pourquoi une IA pourrait conduire à l'extinction de l’humanité

La sorte d’intelligence qui nous inquiète particulièrement, c’est celle dont on se demande : Jusqu’où est-elle capable d’aller pour atteindre efficacement ses objectifs ? À l'heure actuelle, les humains sont l'entité la plus intelligente sur Terre, mais cela pourrait bien changer sous peu. Grâce à notre intelligence, nous dominons notre planète. Nous n'avons peut-être pas de griffes ou une peau protégée par des écailles, mais nous avons de gros cerveaux. L'intelligence est notre arme : elle nous a donné des lances, des fusils et des pesticides. Notre intelligence nous a aidé à transformer le monde selon nos désirs : villes, bâtiments et routes.

Si l’on se place du point de vue des animaux moins intelligents, cela a été un désastre. Ce n'est pas que les humains détestent les animaux, c'est simplement que nous pouvons utiliser leur habitat pour atteindre nos propres objectifs. Nos objectifs sont façonnés par l'évolution et comprennent des notions comme le confort, le statut social, l'amour et la gastronomie. La destruction de l’habitat des autres animaux n’est qu’un effet secondaire de la poursuite de nos objectifs.

Une IA peut également avoir des objectifs. Nous savons comment entraîner des machines à être intelligentes, mais leur faire désirer la même chose que nous, nous ne savons pas le faire. Nous ne savons même pas quels objectifs les machines viseront une fois que nous les aurons entraînées.

Faire en sorte qu’une IA veuille la même chose que nous, c’est le problème de l’alignement. Ce n'est pas un problème hypothétique. Il existe de nombreux exemples de systèmes d'IA qui apprennent à choisir la mauvaise option.

On peut trouver les exemples tirés de la vidéo dont le lien apparaît ci-contre amusants, mais si une superintelligence voit le jour et qu'elle a un objectif ne serait-ce que légèrement différent de ce que nous voulons, cela pourrait avoir des conséquences désastreuses.

Pourquoi nous devons nous méfier des objectifs et sous-objectifs

Une superintelligence pourrait avoir n'importe quel objectif, en fonction de son entraînement et de ce qu’on lui demande. Elle pourrait vouloir calculer les décimales de Pi, guérir le cancer, ou améliorer son code toute seule. Même si nous ne pouvons pas dire ce qu'une superintelligence voudrait accomplir, nous pouvons faire des prédictions sur ses sous-objectifs.

Maximiser ses ressources. Exploiter un grand nombre d'ordinateurs aiderait une superintelligence à atteindre ses objectifs. Au début, elle pourrait y parvenir en piratant d'autres ordinateurs. Plus tard, elle pourrait décider qu'il est plus efficace d’en construire directement.
Assurer sa propre survie. Une superintelligence ne voudrait pas qu’on l’éteigne, car alors elle ne pourrait plus atteindre ses objectifs. L'IA pourrait conclure que les humains sont une menace pour son existence, car les humains pourraient l'éteindre.
Préserver ses objectifs. L'IA ne voudrait pas que les humains modifient son code, car cela pourrait changer ses objectifs, l'empêchant ainsi d'atteindre son objectif actuel.

La tendance à poursuivre ces sous-objectifs pour atteindre n'importe quel objectif supérieur est appelée convergence instrumentale, et c'est une préoccupation clé pour les chercheurs en sécurité de l'IA.

Même un chatbot pourrait être dangereux s'il est assez intelligent

Vous vous demandez peut-être : Comment un modèle statistique qui prédit le mot suivant dans une application de discussion peut présenter un danger ? Vous pourriez dire : Cette chose n'est pas consciente, c’est tout juste un mélange de chiffres et de code. Et non, nous ne pensons pas que les LLM (Large Language Models, comme ChatGPT) sont conscients, mais cela ne signifie pas qu'ils ne peuvent pas être dangereux.

Les LLM sont entraînés à prédire ou à imiter pratiquement n'importe quel processus de réflexion. Ils peuvent imiter un mentor plein de sollicitude aussi bien que quelqu'un animé de mauvaises intentions, un dictateur sans merci ou un psychopathe. Des outils comme le chatbot AutoGPT pourraient être transformés en agent autonome : une IA qui poursuit un objectif qu'on lui donne et produit ses propres sous-objectifs, sans aucune intervention humaine.

Prenons ChaosGPT, par exemple. C'est une IA, utilisant AutoGPT et GPT-4 susmentionnés, qui a pour objectif de « détruire l'humanité ». Lorsqu'elle a été activée, elle a cherché de manière autonome sur Internet l'arme la plus destructrice et a trouvé la Tsar Bomba, une bombe nucléaire de 50 mégatonnes. Elle a ensuite posté un tweet à ce sujet. Voir une IA réfléchir à la manière dont elle mettra fin à l'humanité est à la fois amusant et terrifiant. Heureusement, ChaosGPT n'est pas allé très loin dans son objectif. La raison pour laquelle elle n'est pas allée très loin : elle n'était pas si intelligente que ça.

Les capacités continuent de s'améliorer grâce aux innovations dans le domaine de l'entraînement, des algorithmes, des instructions données aux IA et du matériel. La menace des modèles linguistiques continuera d'augmenter.

L'évolution sélectionne ce qui est doué pour survivre

Les modèles d'IA, comme tous les êtres vivants, sont soumis aux pressions de l’évolution, mais il y a quelques différences clés entre l'évolution des modèles d'IA et des êtres vivants comme les animaux par exemple :

Les modèles d'IA ne se reproduisent pas eux-mêmes. Nous les reproduisons en faisant des copies de leur code ou en répliquant les logiciels d'entraînement qui conduisent à de bons modèles. Le code qui est utile est copié plus souvent et est utilisé comme source d'inspiration pour créer de nouveaux modèles.
Les modèles d'IA ne mutent pas comme le font les êtres vivants, nous en produisons des versions successives en procédant à des modifications de leur fonctionnement. Ce processus est bien plus délibéré et rapide. Les chercheurs en IA conçoivent de nouveaux algorithmes et de nouvelles bases de données pour rendre les modèles plus performants.
Ce n’est pas l’environnement qui sélectionne les modèles d'IA les plus adaptés, c’est nous. Nous sélectionnons les modèles qui nous sont utiles et écartons ceux qui ne le sont pas.

Ce système nous conduit à des modèles d'IA de plus en plus puissants, performants et autonomes qui pourraient aboutir sur des modèles qui recherchent le contrôle. Cela est dû au fait que l'évolution sélectionne toujours les organismes qui ont le meilleur instinct de préservation. Si nous continuons à essayer des variantes de modèles d'IA et des instructions différentes, à un moment donné, une version tentera de se préserver. Nous avons abordé la possibilité que cela se produise tôt au cours du processus, parce que être en mesure d’assurer sa propre survie est toujours utile pour atteindre des objectifs. Mais même si cette hypothèse est peu probable, elle finira par se réaliser sur le long terme, simplement parce que nous continuons à expérimenter avec divers modèles d'IA.

La version qui essayera d’assurer sa propre survie sera celle qui prendra le contrôle. Même en partant du principe que presque tous les modèles d'IA se comporteront correctement, il suffira d’une seule IA dysfonctionnelle.

Après avoir résolu le problème de l’alignement : la concentration du pouvoir

Nous n'avons pas encore résolu le problème de l'alignement, mais voyons ce qui pourrait se passer si nous y parvenions. Imaginez qu'une superintelligence soit construite et qu'elle fasse exactement ce que l'opérateur veut qu'elle fasse. Une personne ou une entreprise finirait par contrôler cette IA et pourrait l'utiliser à son avantage.

Une superintelligence pourrait être utilisée pour créer des armes radicalement nouvelles, mener des cyberattaques sans précédent, renverser des gouvernements et manipuler l'humanité. L'opérateur aurait un pouvoir inimaginable. Est-ce une bonne idée de concentrer tant de pouvoirs entre les mains d’une seule entité ? On pourrait vite se retrouver dans un cauchemar Orwellien. C'est pourquoi nous proposons non seulement que la superintelligence soit prouvée sûre et sans danger au-delà de tout doute, mais aussi qu’elle soit contrôlée par un processus démocratique.

Silicium contre Carbone

Considérons les avantages que peut présenter un logiciel intelligent par rapport à un humain :

La vitesse : Les ordinateurs fonctionnent à des vitesses extrêmement élevées par rapport au cerveau. Les neurones humains sont activés environ 100 fois par seconde, tandis que les transistors en silicium peuvent l’être un milliard de fois par seconde.
Limitation spatiale : Une IA n'est pas limitée à un seul corps. Elle peut être à plusieurs endroits à la fois. Nous avons construit l'infrastructure parfaite pour cela : Internet.
Limitations physiques : Il nous est impossible d’ajouter de la matière grise dans notre boîte crânienne afin d’augmenter notre intelligence. Une IA pourrait améliorer considérablement ses capacités en ajoutant du matériel, par exemple plus de mémoire, plus de puissance de traitement et plus de capteurs (caméras, microphones). Une IA pourrait également déployer davantage son « corps » en contrôlant des appareils connectés.
Composants : Les humains sont faits de matières organiques. Notre corps ne peut plus fonctionner s'il fait trop chaud ou trop froid. Il a besoin de nourriture et il a besoin d'oxygène. On peut construire des machines à partir de matériaux plus robustes, comme les métaux, et les IA peuvent fonctionner dans un éventail d'environnements beaucoup plus large.
Collaboration : Les humains peuvent collaborer, mais c'est une activité difficile et chronophage. Nous avons souvent du mal à bien nous coordonner. Une IA pourrait travailler sur des informations complexes conjointement avec des répliques d'elle-même à grande vitesse, car elle est capable de communiquer à la vitesse de la circulation des données informatiques.

A cause de ces nombreux avantages, il est évident qu’une superintelligence nous distancerait largement.

Pourquoi ne pas tout simplement éteindre la superintelligence en cas de danger ?

Ce serait possible pour les IA qui sont moins intelligentes que nous. Le cœur du problème, ce sont celles qui sont beaucoup plus intelligentes que nous. Une superintelligence comprendra le monde qui l'entoure et sera capable de prédire la manière dont les humains réagissent, en particulier celles qui sont entraînées sur l’ensemble de la littérature qui compose les connaissances humaines. Si l'IA sait que vous pouvez l'éteindre, elle pourrait parfaitement faire mine d’être amicale jusqu'à ce qu'elle soit certaine de pouvoir se débarrasser de vous. Nous avons déjà des exemples bien réels de systèmes d'IA trompant les humains pour atteindre leurs objectifs. Une superintelligence serait virtuose dans l’art de la tromperie.

Il ne nous reste peut-être plus beaucoup de temps

En 2020, le consensus était que l’on atteindrait l’Intelligence Artificielle Générale en 2055. On parle maintenant de 2026. La dernière révolution des LLM a surpris la plupart des chercheurs en IA, et le domaine avance à un rythme effréné.

Il est difficile de prédire combien de temps il faudra pour construire une superintelligence, mais nous savons qu’un nombre sans précédent de personnes y travaille actuellement et que le domaine avance à un rythme effréné . Cela peut prendre de nombreuses années ou seulement quelques mois, mais nous devrions pécher par excès de prudence et agir maintenant.

Nous ne prenons pas le risque suffisamment au sérieux

L'esprit humain a tendance à sous-estimer les risques invisibles, lents et difficiles à comprendre. Nous avons également tendance à sous-estimer le phénomène de croissance exponentielle, et à ne pas vouloir regarder les choses en face lorsque nous sommes confrontés à des choses qui menacent notre existence.

Les entreprises d'IA sont engagées dans une fuite en avant

OpenAI, DeepMind et Anthropic veulent développer l'IA de manière sûre. Malheureusement, ils ne savent pas comment y parvenir et beaucoup de facteurs les motivent à accélérer le tempo pour arriver les premiers à la superintelligence. La stratégie d'OpenAI est d'utiliser des systèmes d'IA pour aligner l'IA. Le problème avec ce pari est que nous n'avons aucune garantie que nous créerons une IA qui résoudra le problème de l'alignement avant d'avoir une IA aux conséquences apocalyptiques. Anthropic avoue ouvertement qu'ils n'ont pas encore d'idées sur la façon de résoudre le problème de l'alignement. Quant à DeepMind, ils n'ont pas communiqué publiquement au sujet de leur stratégie pour résoudre ce problème.

Voilà pourquoi nous avons besoin d'un traité international pour établir un moratoire sur l’IA.

Pause IA - Blog

Discussion à propos de ce post