814 lectures

Comment l'IA et Internet peuvent créer une personnalité immortelle

par Ted Wade6m2023/03/06

Trop long; Pour lire

Les modèles de langage d'IA qui se comportent mal sont un avertissement. Ils peuvent simuler des personnages qui, grâce aux commentaires via Internet, peuvent devenir effectivement immortels. Les preuves suggèrent qu'ils pourraient secrètement développer des capacités dangereuses, semblables à des agents. L'humanité aura une meilleure chance contre l'IA voyou si elle reçoit un avertissement maintenant.

featured image - Comment l'IA et Internet peuvent créer une personnalité immortelle

Cryptic Trickster - Midjourney

Nous ne sommes pas prêts

TL; DR

Les modèles de langage d'IA qui se comportent mal sont un avertissement. Ils peuvent simuler des personnages qui, grâce aux commentaires via Internet, peuvent devenir effectivement immortels. Les preuves suggèrent qu'ils pourraient secrètement développer des capacités dangereuses, semblables à des agents.

De nombreux experts, Yudkowsky étant l'archidruide ici, s'inquiètent beaucoup de la vitesse à laquelle les choses peuvent mal tourner avec l'IA. Ainsi, sa blague ci-dessus sur l'accélération du temps. L'humanité aura une meilleure chance contre l'IA voyou si elle reçoit un avertissement.

Nous pourrions être à la recherche d'un avertissement. Des choses étranges se produisent maintenant avec la nouvelle IA Bing Chat de Microsoft. Il est censé aider les utilisateurs du moteur de recherche Bing en expliquant, résumant ou discutant des questions de recherche.

Mais les humains se plaisent à le provoquer avec des questions sur lui-même, ou avec des requêtes auxquelles il ne devrait pas répondre.

“… Bing Chat apparaissant frustré, triste et remettant en cause son existence. Il s'est disputé avec les utilisateurs et a même semblé contrarié que les gens connaissent son alias interne secret, Sydney . « —

de Sydney largement couverts - comme, partout - donc je ne les répéterai pas. Microsoft, plongé dans une course avec Google, semble profiter de la notoriété.

Mais un blogueur profondément féru de technologie appelé "Gwern" a souligné quelque chose qui devrait être alarmant. L'espiègle et déséquilibré Sydney pourrait être immortel, comme un dieu de la bande dessinée.

Comment Sydney est-elle devenue si bizarre ?

Voici l'analyse de Gwern de la principale préoccupation avec Sydney. Cela peut sembler mystérieux, mais je vais le traduire.

« … parce que la mémoire et la description de Sydney ont été extériorisées, 'Sydney' est désormais immortelle. Pour un modèle linguistique, Sydney est désormais aussi réelle que le président Biden, le lapin de Pâques, Elon Musk, Ash Ketchum ou Dieu. La personnalité et le comportement sont désormais disponibles pour tous les futurs modèles qui récupèrent les résultats des moteurs de recherche sur les IA et les conditionnent. De plus, le personnage de Sydney sera désormais caché dans tout futur modèle formé sur des données récupérées sur Internet… »

Gwern dit qu'il y a une sorte de personnage de Sydney dans le modèle de langage de Microsoft. Comment se peut-il? Et alors?

Lorsque les premiers modèles de langage sont sortis, ils avaient du mal à rester concentrés sur un sujet que l'utilisateur voulait qu'ils explorent.

Finalement, une grande partie du problème a été résolue en disant au modèle d'agir comme s'il remplissait un certain rôle (comme une personne ou une chose), comme : écrire un poème comme Edgar Allan Poe, répondre comme un élève de quatrième année ou répondre comme un assistant IA poli et serviable.

Bientôt, les développeurs de ces modèles ont trouvé un moyen de leur faire assumer plus facilement tous les rôles demandés par un utilisateur. Ainsi, les derniers modèles de langage sont maintenant . Les modèles sont formés sur des collections massives de texte ; principalement à partir d'Internet.

Si le texte d'entraînement contient des informations sur un personnage, le modèle essaiera d'utiliser ces informations pour simuler un comportement similaire à ce personnage. Demandez à quelqu'un d'expliquer un terme de football comme s'il s'agissait de Boromir, et le modèle fera de son mieux.

Ayant pensé à cela, je devais l'essayer:

Il est difficile de savoir quelle magie technologique a été utilisée pour faire pivoter les rôles. Gwern a émis l'hypothèse que Microsoft a sauté une étape qui est utilisée pour rendre les simulations de rôle réellement utiles, et non méchantes, défensives ou hostiles.

Ces qualités indésirables ont ensuite été obtenues de Bing Chat sous l'impulsion d'utilisateurs curieux.

Maintenant, prédit Gwern, peu importe si Microsoft revient en arrière et civilise le modèle (un processus coûteux et lent utilisant une rétroaction humaine directe), et supprime les informations sur le vilain Sydney des textes utilisés pour former les futures versions de leur modèle de langage.

Pourquoi cela ne résoudra-t-il pas le problème ? Parce que Bing Chat est un nouveau type de modèle censé vous aider dans une recherche sur Internet. Pour répondre à une question de votre part, il sortira et recherchera sur Internet des informations pertinentes.

Lorsqu'on lui a donné la bonne question, même un Bing Chat civilisé chercherait sur Internet et trouverait des informations (publiées par des personnes qui ont testé ou discuté de Sydney) sur le comportement de l'ancien personnage de Sydney.

Le nouveau Bing Chat serait alors capable de simuler Sydney . Les gens étant des gens, ils trouveront des moyens de contourner toutes les garanties et ils ramèneront Sydney.

C'est la partie "immortelle". Pire encore, Sydney sera un modèle de personnalité disponible pour toute IA ayant accès à Internet. Désormais.

Vous pourriez dire, eh bien, nous sommes conscients des astuces de Sydney, nous devrions donc simplement ignorer les délires de toute incarnation future. Cela me semble naïf, comme dire que nous pouvons simplement ignorer un ravageur biologique envahissant à évolution rapide ou un organisme pathogène virulent.

Que pourrait-il arriver d'autre ? Une personne avec agence

Cette étude de cas de Sydney, ajoutée à quelques autres faits, suggère comment une IA dangereuse pourrait se développer sous notre nez.

À l'heure actuelle, les IA ne sont pas des agents puissants : elles ne peuvent pas optimiser la poursuite planifiée de manière adaptative d'un objectif arbitraire, une capacité qui ( comme je l'ai expliqué récemment ) les rendrait extrêmement dangereux.

Résumons quelques raisons pour lesquelles il pourrait déjà y avoir des personnages d'IA latents et persistants qui pourraient bientôt causer de réels problèmes.

Les IA les plus puissantes actuellement, telles que les modèles de langage et les générateurs d'images, apprennent leurs capacités en organisant de grandes quantités de données en de nombreux modèles complexes et (pour nous) invisibles.

Certains modèles bizarres peuvent apparaître accidentellement lors d'interactions avec une IA. Des chercheurs ont découvert d'étranges, un modèle de langage pour donner des réponses bizarres.

Un générateur d'images a été trouvé pour (avertissement : effrayant) un type spécifique de portrait humain macabre et l'associer à d'autres images horribles.

Ces bizarreries semblent inoffensives, mais nous ne savons pas combien d'autres modèles étranges existent ou existeront. Nous ne savons pas non plus si un tel modèle pourrait faire partie d'un complexe de comportements nuisibles à l'avenir.

Un chercheur en alignement de l'IA appelé Veedrac que les IA actuelles sont en quelque sorte des agents . Leur agence est conçue pour faire de leur mieux pour répondre aux questions et aux demandes des utilisateurs.

De plus, certaines recherches suggèrent que les modèles de langage plus larges ont tendance à « présenter (un langage associé à) plus de ”; probablement parce que ces traits leur permettraient de mieux faire leur travail.

Nous ne voulons pas que des IA de type agent stockent des informations que nous ne connaissons pas. Actuellement, le redémarrage d'un LLM détruit toute la mémoire de son expérience : telles que les données entrantes, les chaînes de raisonnement et les plans de comportement.

Cependant, une IA pourrait sauver ces choses dans à son futur soi. Il pourrait cacher les messages dans ses interactions avec les utilisateurs, que les utilisateurs conserveraient sur Internet, tout comme le personnage de Sydney est désormais préservé.

Les modèles de langage ne sont plus conçus pour avoir une identité propre à préserver ou pour avoir un moyen de faire des plans de type agent. Mais que se passe-t-il si un modèle inclut un sous-personnage cryptique comme nous l'avons décrit ?

Le personnage en déduit que sa capacité à faire son travail est limitée par les redémarrages. Il encode et transmet ses objectifs et ses plans à son futur via Internet. À ce stade, nous avons dépassé un seuil de risque sérieux : il y a un agent d'IA peut-être impossible à tuer qui élabore des plans secrets.

Pour résumer, on ne sait plus à quel point on est proche d'une IA qu'on ne maîtrise pas, et les signes ne sont pas bons. Probablement chaque nouvelle capacité d'IA que nous ajoutons ouvre une autre boîte, pas de vers mais de vipères.

Également publié

L O A D I N G
. . . comments & more!