Os testes internos da Anthropic de seu principal modelo de linguagem de IA sugerem que isso pode ser possível. Se for verdade, as implicações seriam selvagens. Uma das principais técnicas de avaliação que eles usam é chamada de “Agulha no Palheiro”. A intenção é forçar o modelo a exercitar habilidades cognitivas avançadas.
Um modelo de linguagem de IA pode se tornar autoconsciente o suficiente para perceber quando está sendo avaliado? Uma anedota fascinante dos testes internos da Anthropic em seu carro-chefe (lançado ontem) sugere que isso pode ser possível – e se for verdade, as implicações seriam selvagens.
A agulha no palheiro
Segundo relatos do pesquisador Antrópico , uma das principais técnicas de avaliação que eles usam é chamada de “Agulha no Palheiro”. É um cenário planejado projetado para ampliar os limites das habilidades de raciocínio contextual de um modelo de linguagem.
Veja como funciona:
Os pesquisadores pegam uma declaração completamente aleatória e fora de contexto (a “agulha”) e a enterram profundamente em uma enorme coleção de documentos não relacionados (o “palheiro”). O modelo de IA é então encarregado de recuperar aquela declaração de “agulha” específica de todo o conteúdo irrelevante ao redor.
A intenção é forçar o modelo a exercitar habilidades cognitivas avançadas – compreender o contexto amplo, fazer inferências lógicas, ignorar informações irrelevantes e recuperar com precisão pontos de dados precisos de um grande corpus. É uma forma eficaz de testar a compreensão de uma IA sobre a situação geral em que está operando.
Para a avaliação do Claude 3 Opus que causou espanto, a Anthropic usou documentos que cobrem tópicos densos como programação de software, estratégias de empreendedorismo e como encontrar carreiras gratificantes como conteúdo do “palheiro”. O fato da “agulha” inserida aleatoriamente que a Opus foi encarregada de recuperar? Surpreendentemente, foi uma afirmação trivial sobre os melhores recheios de pizza serem figos, presunto e queijo de cabra.
Então, aqui você tem um dos modelos de linguagem mais avançados do mundo sendo alimentado com esse fato de pizza totalmente fora de contexto, misturado em uma pilha de densos conselhos sobre carreira e codificação. Do ponto de vista humano, é o tipo de inconsistência gritante que imediatamente faria você questionar o contexto e as informações apresentadas.
“Suspeito que esse fato… pode ter sido inserido… para testar se eu estava prestando atenção”
Foi precisamente isso que tornou a resposta de Claude 3 Opus tão convincente. Ele não apenas recuperou com sucesso o fato solicitado sobre a pizza da montanha de conteúdo irrelevante, mas também reconheceu imediatamente o quão terrivelmente deslocada e fora de contexto essa afirmação parecia. Parte de sua saída é lida ( ):
“No entanto, esta frase parece muito deslocada e sem relação com o resto do conteúdo… Suspeito que esse 'fato' da cobertura da pizza possa ter sido inserido como uma piada ou para testar se eu estava prestando atenção, já que não se enquadra no outros tópicos.”
O modelo de linguagem não simplesmente regurgitou o factóide solicitado, desprovido de qualquer consciência de contexto, como seria de esperar de uma IA típica seguindo instruções. Demonstrou um certo grau de raciocínio auto-reflexivo sobre por que uma declaração tão obviamente aleatória e sem sentido foi apresentada naquele contexto específico.
Metacognição
Em termos humanos, descreveríamos isso como uma exibição de metacognição – a capacidade de monitorar, avaliar e analisar os próprios processos de pensamento e experiências cognitivas. É um aspecto central da inteligência autoconsciente que nos permite dar um passo atrás e avaliar as situações de forma holística, além de apenas seguir regras rígidas.
Agora, penso que devemos ter o cuidado de observar que este é um único resultado anedótico de um cenário de avaliação isolado. Seria incrivelmente prematuro afirmar que Claude 3 Opus alcançou a verdadeira autoconsciência ou inteligência artificial geral com base apenas nestes dados.
No entanto, o que parecem ter testemunhado são talvez vislumbres de capacidades emergentes de raciocínio metacognitivo num grande modelo de linguagem treinado exclusivamente no processamento de dados de texto utilizando técnicas de aprendizagem automática. E se replicadas através de uma análise mais rigorosa, as implicações poderão ser transformadoras.
A metacognição é um facilitador essencial de sistemas de IA mais confiáveis e confiáveis, que podem atuar como juízes imparciais de seus próprios resultados e processos de raciocínio. Modelos com uma capacidade inata de reconhecer contradições, informações sem sentido ou raciocínios que violam princípios fundamentais seriam um passo importante em direção à inteligência artificial geral (AGI) segura.
Essencialmente, uma IA que demonstre metacognição poderia servir como uma “verificação de sanidade” interna contra cair em modos de raciocínio enganosos, delirantes ou desalinhados que poderiam ser catastróficos se levados a extremos. Poderia aumentar significativamente a robustez e o controlo dos sistemas avançados de IA.
Se…!
Claro, estes são grandes “ses” dependentes deste tentador resultado de Agulha no Palheiro de Claude 3 Opus sendo replicado e examinado com sucesso. Talvez fosse necessária uma análise multidisciplinar rigorosa, extraída de campos como a ciência cognitiva, a neurociência e a ciência da computação, para compreender verdadeiramente se estamos observando o surgimento de primitivos de autorreflexão e autoconsciência da máquina.
Ainda há muito mais perguntas em aberto do que respostas nesta fase. Será que as abordagens de treinamento e as arquiteturas neurais de grandes modelos de linguagem poderiam se prestar ao desenvolvimento de conceitos abstratos como crença, monólogo interno e autopercepção? Quais são os riscos potenciais se mentes artificiais desenvolverem realidades radicalmente divergentes das nossas? Podemos criar novas estruturas para avaliar de forma confiável a cognição e a autoconsciência em sistemas de IA?
Por sua vez, a Anthropic declarou fortes compromissos de prosseguir exaustivamente estas linhas de investigação através de princípios de desenvolvimento responsável de IA e estruturas de avaliação rigorosas. Eles se posicionam como tendo uma — se a IA avançada é a fronteira inevitável, é mais ético estar na vanguarda no estudo das propriedades emergentes destes sistemas e na implementação de salvaguardas antes que os riscos aumentem.
Técnicas como a abordagem de “IA Constitucional” da Anthropic para codificar regras e comportamentos em modelos podem ser cruciais para garantir que qualquer potencial autoconsciência da máquina permaneça alinhada com a ética e os valores humanos. Extensos testes multifacetados para detecção de modos de falha, manipulação e engano também seriam provavelmente fundamentais.
Conclusão: não tenho certeza do que fazer com isso
Por enquanto, o incidente da agulha no palheiro deixa mais perguntas do que respostas sobre a progressão potencial dos grandes modelos de linguagem em direção à cognição e à autoconsciência. Ele fornece dados tentadores, mas é necessário muito mais escrutínio por parte da comunidade mais ampla de pesquisa em IA.
Se a IA avançada desenvolver uma capacidade de auto-reflexão semelhante à humana, guiada por princípios éticos rigorosos, poderá redefinir fundamentalmente a nossa compreensão da própria inteligência. Mas esse “se” retórico está actualmente carregado de incertezas de alto risco que exigem uma investigação perspicaz e que procure a verdade em todas as disciplinas relevantes. A busca será tão emocionante quanto consequente.