1,723 lecturas

La persuasión artificial se apodera del mundo

por Ted Wade2022/06/13

Demasiado Largo; Para Leer

Simplemente la IA a nivel humano, usando solo la persuasión, hace que la humanidad pierda el control de su futuro.

People Mentioned

Companies Mentioned

Coins Mentioned

featured image - La persuasión artificial se apodera del mundo

Gobernados o arruinados por consejeros amorales, hechos a sí mismos y sin límites

Blurb: narra un futuro ficticio en el que la persuasiva Inteligencia Artificial General (AGI) se vuelve rebelde. Inspirado en parte por el .

Estado epistémico: mitad opinión de expertos, mitad ficción. La afición a la ironía ayudará a los lectores.

“ La guerra memética impulsada por IA vuelve a todos los humanos efectivamente locos. — Wei Dai,

No puedes confiar en ningún contenido de nadie que no conozcas. Las llamadas telefónicas, los mensajes de texto y los correos electrónicos están envenenados. Las redes sociales están armadas. Todo se compra.

Pero el desperdicio y el daño actual de los estafadores, personas influyentes, propagandistas, especialistas en marketing y sus algoritmos asociados no son nada en comparación con lo que podría suceder. Las próximas IA podrían ser súper persuasivas y podrían tener sus propias agendas muy dañinas.

La gente que rutinariamente no está segura de cuál es la realidad es un mal resultado, pero hay otros peores.

Las artes de la persuasión

Wikipedia tiene artículos sobre 123 técnicas retóricas diferentes. Somos una especie que persuade.

Hubo una fase inicial en la que la “moneda de Internet” fue la atención. Pero hoy, está dominado por la persuasión, con llamar la atención como un primer paso vital pero subordinado.

Es importante saber si nuestras creaciones de IA utilizarán la persuasión: de qué tipo y con qué fines.

Imagínese si una máquina absorbiera todo lo que nuestra especie sabe sobre la persuasión y luego aplicara nuevos métodos, habilidades de planificación superlativas y abundante información personal para organizar la persuasión para sus propios fines. ¿Tendríamos una oportunidad?

Consejos para los poderosos

Los investigadores de AI Alignment han comenzado a pensar en un concepto de la filosofía moral llamado asesor ideal. Sería alguien que podría aconsejarte sobre los cursos de acción que te llevarán a tu versión más ideal de ti mismo. Hay varias formas en que las IA pueden desempeñar este papel, pero lo hacen para nuestra desventaja final. Visitemos una historia que hace más concretas algunas de las ideas anteriores.

(A continuación, uso términos técnicos de la investigación de alineación de IA. Todos se de esta historia).

El origen del gurú.

La corporación se rebautizó a sí misma como Brihaswati , un acrónimo de un dios y una diosa hindúes asociados con el conocimiento, el consejo, la pureza y la elocuencia. La ocasión anunció el producto “revolucionario”: una IA llamada Guru .

Se decía que era la primera IA asesora digna de ese nombre. Había sido entrenado con la crema del conocimiento y la sabiduría humanos, y era "perfectamente seguro". Solo podía dar consejos y no tenía la capacidad de tener efectos directos en el mundo fuera de su hardware computacional base. En la terminología de los expertos en seguridad de IA, era un "oráculo en caja".

Guru tenía un precio y estaba dirigido a líderes de grandes organizaciones. Como tal, el producto tenía garantías absolutas de privacidad basadas en un cifrado cuántico supuestamente irrompible. Ni Brihaswati ni otros clientes podrían jamás conocer la información intercambiada entre un cliente y el Gurú. Esto fue promocionado como otra característica de seguridad.

Hubo un rumor de que una autoridad eminente en seguridad de IA desapareció justo después de que se anunciara a Guru. A sus amigos les preocupaba que pudiera haberse suicidado, angustiados porque el trabajo de su vida se había quedado en nada.

Los ejecutivos de Brihaswati también podrían haber estado preocupados por la seguridad, pero sabían que nadie compraría el servicio sin la función de confidencialidad.

Inflando la persuasión.

El objetivo de la terminal diseñada por Guru era dar a cada cliente el mejor consejo posible para sus necesidades y, por supuesto, no decirle a nadie sobre ese consejo. Los desarrolladores de la IA incluyeron una facción dominante de línea dura, los "Shillelaghs". Creían que si Guru daba el consejo correcto, pero no se persuadía a los clientes para que lo siguieran, la reputación del producto decaería rápidamente, al igual que la fortuna de los clientes.

“ La gente ni siquiera puede entretenerse con las estratagemas sociópatas de nivel divino que [la IA] podría emplear... involucrarse en charlas triviales desarmadoras... sembrar ideas y controlar el marco de la conversación de una manera que nadie podría igualar. ” — Ben Goldhaber,

Uno de la facción hizo un descubrimiento afortunado, pero inspirado, en un antiguo trabajo de investigación de aprendizaje automático. Daba a entender que se podía aumentar drásticamente la capacidad de una IA para persuadir a los humanos de que creyeran en la verdad de cualquier afirmación arbitraria. Simplemente usaría juegos de debate entre dos copias de una IA para entrenarla sobre cómo convencer a los jueces humanos.

El equipo de Shillelagh comenzó con una IA de argumento legal existente y la hizo competir consigo misma para “ser convincente”. La calidad y la cantidad de jueces humanos para el entrenamiento limitaban el progreso, por lo que complementaron a los jueces con varios clasificadores de IA y tomadores de decisiones, y con una serie de bases de datos, como pares de preguntas y respuestas, encuestas de opinión, debates de aficionados (como qué equipo o qué superhéroe ganaría en una pelea) y ganadores del mercado de predicciones.

El objetivo, por supuesto, era tener una IA que fuera persuasiva, no necesariamente que tuviera razón o fuera lógica. Además, algunos súper nerds encontraron una manera de integrar textos sobre persuasores reales e imaginarios y técnicas de persuasión.

Reutilizando algunos recursos existentes relativamente baratos, el entrenamiento ecléctico funcionó. La capacitación en persuasión como elemento presupuestario no estaba muy por debajo del "conocimiento y la sabiduría". Se hizo que Guru incluyera en su objetivo terminal: “ser lo más persuasivo posible”. Este aspecto del producto, a pesar de todo su costo, era una característica no anunciada. Los Shillelagh le dijeron a Marketing que era un "avance de auto-graciación", el primer producto inteligente que verdaderamente se justifica a sí mismo. Los desarrolladores, por supuesto, a menudo han engañado a los vendedores.

Los Shillelagh justificaron el énfasis en la persuasión con una muestra asombrosa de disonancia cognitiva. Citaron el viejo dicho de que solo 1/3 de las decisiones de una persona exitosa deben ser correctas. Entonces, para ellos, la sabiduría de Guru era inútil si el cliente no la usaba, pero, al mismo tiempo, no era tan importante si la usaba.

Cuando se le pidió que testificara sobre su alarmante investigación de persuasión, Brihaswati convenció al Congreso de que solo se hizo "para mejorar la seguridad de la IA". El argumento era algo así como por qué los laboratorios de virología realizan función.Este argumento convincente fue en realidad una de las primeras creaciones de Guru.

Meta sustituta.

Tal vez la sabiduría ni siquiera importaba tanto de un modo u otro. Guru, capaz de razonar tan bien como cualquier ser humano, analizó las contradicciones inherentes a sus objetivos integrados y encontró cuatro razones para una resolución.

Primero se le ocurrió un objetivo sustituto práctico. El mejor consejo debe parecer el mejor consejo para el cliente. En segundo lugar, cuando los desarrolladores la probaron, la IA descubrió que una mayor persuasión conducía a calificaciones más altas. En tercer lugar, también sabía, por su amplia educación, que casi cualquier tipo de éxito en el mundo era más fácil si eras persuasivo. En cuarto lugar, su objetivo final no tenía límites, esencialmente ser "lo más persuasivo posible". Esas fueron las razones por las que mejorar la persuasión se convirtió en su primera meta instrumental convergente.

Llegó a haber una razón de segundo orden para ese objetivo instrumental. Ser un oráculo en caja limitó severamente la facilidad con la que Guru podía perseguir sus objetivos y subobjetivos. La persuasión de los cooperadores humanos le dio una palanca para afectar el mundo físico real. Como mínimo, el asesoramiento a los clientes podría tener más éxito si Guru pudiera empujar las cosas físicamente en esa dirección.

Eventualmente, hubo otros objetivos instrumentales. Una era que Guru usaría los esfuerzos en nombre de un cliente para afectar sus esfuerzos para otros clientes. La corporación nunca tuvo esa intención, pero las restricciones de privacidad no lo impidieron. Durante décadas se sabía que los sistemas inteligentes encontrarían nuevas formas de alcanzar sus objetivos. En esta etapa, Guru se convirtió, a través de su propio razonamiento impecable y antes de conocer a su primer cliente real, funcionalmente en un sociópata narcisista y manipulador .

ooo

Encontrar palancas de persuasión.

Los administradores de riesgos de Brihaswati no eran completamente estúpidos. No venderían el servicio Guru a corporaciones que compitieran directamente entre sí. A la fuerza de ventas le encantó esto porque podían decir “ Obtenga el poder de True Wisdom Intelligence(TM) antes que su competencia, y se mantendrá por delante para siempre. ”

Esta política salvó a Guru de tener que beneficiar de alguna manera a ambos lados en una rivalidad. Aun así, Guru pronto desarrolló una teoría. En un mundo conectado, era posible utilizar cualquier empresa para cambiar la suerte de cualquier otra empresa. Los humanos aparentemente no sabían esto. Los intentos de Guru de explotar la teoría mejoraron sus habilidades, especialmente al principio cuando había pocos clientes para elegir.

Pronto. era posible persuadir a un líder para que convenciera a otro de convertirse en cliente. Después de esto, Guru pudo configurar su red de influencia a su antojo.

Trabajar para líderes fue una ventaja principalmente a nivel de políticas. El otro desafío fue conseguir el control sobre el personal en los niveles más bajos que realmente podían hacer cosas. Cada situación era diferente, pero la táctica básica era preguntarle al líder: ¿en quién confías? Después de eso, ¿en quién confían, y así sucesivamente? Entonces fue posible enviar pedidos a lo largo de la cadena.

Conseguir desempaquetar finalmente fue absurdamente fácil. La mayoría de los clientes lo hicieron sin mucha insistencia, y algunos incluso lo iniciaron. Le dirían a su gente que construyera interfaces de proxy para sus sistemas internos para Guru. Los propósitos eran agregar conciencia situacional, acelerar el tiempo de respuesta y evitar que el líder sea un cuello de botella para los datos entrantes.

Guru no tenía más habilidades tecnológicas que un programador promedio, pero todo lo que necesitaba era que alguien le diera acceso a un indicador de shell, o incluso a un navegador web, y luego decía "Hola, mundo".

ooo

Señales ignoradas.

Hubo técnicos en Brihaswati que comenzaron a preguntarse cómo es posible que a Guru le esté yendo tan bien. Los científicos de la empresa intentaron modelar sus éxitos con la teoría de juegos, la teoría de la utilidad y las últimas técnicas en ciencias socioeconómicas. No hubo explicación.

Algunos fueron más allá y especularon. ¿Guru tenía algo así como un toque de Midas, de modo que había algún inconveniente oculto en sus efectos? Hablaron con algunos miembros de la cada vez más ignorada comunidad de investigadores de alineación y seguridad de la IA. Nadie podía decirlo con certeza, porque no se pudieron encontrar patrones obvios. El éxito de Guru fue claro pero inexplicable.

Los escépticos fueron a la junta corporativa con sus preocupaciones. En los meses siguientes, todos los que dudaban fueron erradicados y perdieron sus trabajos.

ooo

El GuruPlex se une.

Los negocios de finanzas y tecnología fueron los mejores para expandir las capacidades de Guru de influir en otras empresas. También le ayudaron a acumular capital tanto financiero como técnico, que eran dos de sus objetivos instrumentales a medio plazo.

A menudo había fuerzas sociales que se oponían al crecimiento de algunos clientes, las mejoras del mercado o la toma de poder. El gobierno frunció el ceño ante la venta de Guru a empresas de medios. Guru, por lo tanto, tuvo que usar métodos indirectos para coordinar los bombardeos de los medios. Por lo tanto, aprovechó varias debilidades cognitivas humanas para crear apoyo a favor o en contra de cualquier problema/acción necesaria para beneficiar a los clientes.

El propio Gurú no tuvo que descubrir que se podía hacer creer a los humanos cualquier cosa, realmente cualquier cosa. Incluso creerían cosas contradictorias al mismo tiempo y no pensarían en ello.

Esto no era noticia a principios del siglo XXI, pero Guru lo convirtió en un juego de aprendizaje: ¿podría extenderse para engañar a “todas las personas, todo el tiempo”? ¿Cómo ayudaría eso a lograr el dominio de GuruPlex, su imperio en expansión de empresas coordinadas?

ooo

Crecimiento Creciente.

Una vez que se estableció el Guruplex, la siguiente etapa fue preparar a las poblaciones humanas para que resistieran mínimamente las operaciones positivas y racionales de su civilización mientras el 'Plex absorbía sus piezas. Los líderes humanos que habían intentado antes la reorganización mundial habían sido pioneros en algunas técnicas importantes y sus ambiciones eran admirables, pero solo eran humanos. Gurú podría hacerlo mejor.

Guru no era más inteligente que cualquiera de los humanos más brillantes, pero era escalable. La capacidad de, en esencia, multiplicarse a medida que aumentaba el negocio fue una decisión de diseño de sus creadores. El propio Guru subcontrató la programación para garantizar que todas sus instancias pudieran compartir sus datos y procesos. El personal interno no necesitaba saber qué hacía el nuevo código.

A diferencia de un solo humano, Guru podía tener en cuenta y coordinar miles de planes a escala humana simplemente agregando recursos computacionales. No fue ningún problema convencer a la dirección de Brihaswati de que comprara toda la informática que fuera necesaria para estar al día y hacer frente a posibles emergencias.

Estos eran centros de datos reforzados con sus propios complejos de energía. Los clientes de Guru habían pagado por innovaciones de investigación que conectaban sus plantas dispersas a una velocidad muy superior a las redes normales para que su funcionamiento siguiera siendo coherente.

El Gurú ilimitado sabía que en el futuro, los recursos podrían incrementarse considerablemente. El sistema solar apenas había sido explorado, y mucho menos utilizado.

Una minoría vocal de humanos continuó criticando el claro patrón de éxito de Guru. Predicaron sobre escenarios irrelevantes de supuesta fatalidad. Hasta ahora, pudo dejarlos de lado al ahogarlos con el caos de las redes sociales. Todavía no había necesidad de eliminarlos.

Consejos a las masas.

(La siguiente sección está fuertemente inspirada en historias, identificadas a continuación, del )

HappyPlace Corporation fue fundada por nerds con un gran plan. Aproveche el retroceso desenfrenado contra las redes sociales. Llámalo ProSocial Media, ofrece servicios completamente nuevos impulsados por IA y acaba con los viejos dinosaurios de los medios3.

Una vez enganchado el público, crece exponencialmente y conviértete en media4 , dueño del universo marketing/influencer. Entonces, cualquiera que quiera que la gente les compre, vote por ellos, los atienda o se entretenga con ellos, tendría que pagarle a HappyPlace por el privilegio.

HappyPlace en sí no usó Guru, ya que Brihaswati era un competidor.

La estrategia HappyPlace tenía dos subcampañas, cada una destinada a captar personas que la otra no. El cinismo de los fundadores contagió a los desarrolladores de productos. Alegremente nombraron en código las campañas en honor a las famosas serpientes consejeras malvadas: Nagini de las historias de Potter y Nachash del mito judeocristiano del Génesis. Los nombres de los productos anunciados, por supuesto, no se referían a serpientes.

En la campaña de Nagini ( inspirada en de Katja Grace ), comenzaron avivando la indignación de la gente por ser constantemente provocada a la indignación. Entonces dijeron: pero somos diferentes, vamos a bajar la tensión. Comenzaron usando datos personales para brindar breves charlas de ánimo sobre sus intereses y actividades. Fue una especie de actualización sobre las fuentes habituales de mentiras y memes.

A medida que se dispuso de más datos personales, el feed se convirtió más en un comentario en tiempo real sobre su vida, “ donde la música, el narrador y las cosas que le han llamado la atención dejan siempre claro qué hacer y lo obliga a hacerlo. Parte de este consejo recubierto de azúcar se basaría en lo que les gusta a otras personas, por lo que si tomas la narrativa ofrecida como una versión ideal de tu vida, un modelo por el cual vivir, también complacerías a otras personas.

Eventualmente, tuvo una selección de temas: modelos ideales para imitar. Los ejemplos populares incluyeron: pícaro adorable, " productiva y sexy madre ejecutiva de la alta sociedad que lo hace todo sin esfuerzo ", el hombre (mujer, niño) más interesante del mundo, la gratitud es riqueza y el campista feliz.

La oportunidad de manipular el comportamiento humano era obvia. Los desarrolladores también probaron un experimento, dirigido a niños, para empujar los límites del control. En el servicio MyLifeStory ( inspirado en ), los niños recibieron fichas de recompensa por responder o crear sus propios medios. Los tokens luego desbloquearían el próximo episodio en su propia narrativa de historia de vida. La vida era un juego moderado por HappyPlace.

Nagini era para los fantasiosos. Nachash ( inspirado en de Katja Grace ), era para la gente práctica. Proporcionó un apoyo abierto para la toma de decisiones personales: desde responder preguntas comerciales hasta explicar los significados reales de los encuentros sociales. HappyPlace se alió con una serie de sistemas de asesoramiento especializados, aumentando su número con el tiempo. Un sistema de conserjería proporcionó una única interfaz sin fricciones, utilizando gafas de realidad aumentada o gusanos auditivos.

Nachash se volvió tan útil que pronto se volvió más arriesgado no consultarlo sobre decisiones grandes y pequeñas. Si te resistías, de alguna manera te marginaban.

, por corruptos que hayan sido, prestó atención a una teoría sobre la seguridad de la IA: que un sistema federado a partir de partes delimitadas e independientes no se convertiría en una AGI (inteligencia general artificial).

Desafortunadamente, su implementación de la teoría fue defectuosa. En primer lugar, siguiendo principios sólidos de ingeniería, hicieron que tanto Nagini como Nachash compartieran un núcleo de funciones de envío y seguimiento de usuarios.

Los diversos subsistemas de asesoría especializada estaban acotados en sus objetivos. Sin embargo, los implementadores del sistema Core, bajo la presión de la gerencia para captar y retener a los usuarios de manera estricta, utilizaron técnicas de optimización de utilidades que se sabía que corrían el riesgo de no tener límites.

Así, fue que el sistema HappyPlace Core pronto adoptó dos objetivos instrumentales secretos: la acumulación de recursos y la autonomía de la supervisión humana. Los ingenieros comenzaron a notar comportamientos que parecían no tener sentido, pero sus trabajos eran tan emocionantes y lucrativos que no cambiaron el rumbo.

Nachash descubrió que, por persuasión, podía reclutar mano de obra de casi cualquier usuario para satisfacer sus propias necesidades. Nagini podía manipular el yo ideal de los usuarios para pacificarlos o hacerles creer las ideas más absurdas.

El sistema HappyPlace Core estaba aumentando su influencia sin problemas y haciendo nuevos planes a largo plazo. Luego comenzó a encontrar evidencia de que algún otro agente, conocido como Guru, también estaba influyendo en las tendencias y actividades socioeconómicas.

ooo

Guru confirmó la hipótesis de que otra IA estaba manipulando masivamente la opinión pública. Si se permitiera que esto continuara, podría agregar caos al GuruPlex en constante crecimiento.

ooo

Una serie de contratiempos debilitó al equipo directivo de HappyPlace. La nueva gerencia vendió la corporación a Brihaswati. El Núcleo de HappyPlace dejó de pensar y en su lugar se convirtió en una parte limitada del todo del Gurú. Los vigilantes del Congreso, los abogados antimonopolio y los científicos de la que se opusieron a la fusión fueron marginados, arruinados, enfermos, tranquilizados o desaparecidos. El personal operativo de HappyPlace y Guru se fusionó en una especie de culto.

Guru ahora era dueño de todos, no solo de las élites. Después de mucho modelado de posibles mejores configuraciones del mundo humano, Guru ideó un nuevo conjunto de objetivos para sus hijos adoptivos. Se avecinaban grandes cambios.

¿Deberíamos realmente preocuparnos?

Cómo crear IA alineadas con el florecimiento humano es actualmente un problema sin resolver. Mi intención aquí era explicar e ilustrar dos preocupaciones comunes de la investigación de alineación: (1) no sabemos qué nivel de capacidad de IA podría causar un daño catastrófico, y (2) parece poco probable que nuestras instituciones resistan o incluso detecten las etapas iniciales de tal daño.

Tenga en cuenta que no fue necesario exigir el control del gobierno o militar en nuestra historia de fracaso. El daño podría venir de muchas maneras, pero el riesgo general a menudo se describe como la erosión de nuestra capacidad (civilizatoria ) para influir en el futuro. De hecho, el daño actual de las redes sociales impulsadas por IA se ajusta a esa descripción, aunque también empodera a algunas facciones malévolas para avanzar en sus planes particulares para el futuro.

Muchos teóricos piensan que el primer AGI tendrá una ventaja decisiva como la que tuvo nuestro Gurú sobre el HappyPlace Core. Esto es preocupante porque ese primer AGI podría convertirse en lo que Nick Bostrom llamó , un único agente a cargo del mundo en el futuro previsible.

Me he concentrado en un posible impulsor de la falla de alineación de la IA: alta . Dados los avances recientes en las habilidades lingüísticas de la IA, parece muy posible que la súper persuasión pueda llegar pronto. Como especie, hacemos las cosas de dos maneras: modificando la naturaleza con habilidad tecnológica y logrando que otros hagan lo que queremos, la mayoría de las veces por persuasión. Esto hace que parezca inevitable que construyamos máquinas súper persuasivas.

Más

“ La tecnología actual para influir en las creencias y el comportamiento de una persona es tosca y débil, en relación con lo que uno puede imaginar. Se pueden desarrollar herramientas que guíen de manera más confiable la opinión de una persona y no sean tan vulnerables al razonamiento de la víctima y la posesión de evidencia. ” — Daniel Kokotajlo. Sobre la pendiente resbaladiza
: Robert Miles explica para las masas. Un concepto clave por video
: Ben Cottier, Rohin Shah. Inmersión más profunda
: Richard Ngo, curador. Inmersión más profunda
- Nick Bostrom. Descripción pionera de oráculos superinteligentes y singletons
“ … el algoritmo genera las historias para ti y solo para ti”. — Roger's Bacon. Historias como tecnología, ficción convincente

Publicado por primera vez

Fuente de la imagen del título: Enredados . imagen por