Внутреннее тестирование Anthropic своей флагманской языковой модели искусственного интеллекта предполагает, что это возможно. Если это правда, последствия будут дикими. Один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки.
Может ли языковая модель ИИ стать достаточно самосознательной, чтобы понимать, когда ее оценивают? Увлекательный анекдот из внутреннего тестирования своего флагмана Anthropic (опубликовано вчера) предполагает, что это возможно — и если это правда, последствия будут дикими.
Иголка в стоге сена
По данным антропного исследователя , один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Это надуманный сценарий, разработанный для того, чтобы раздвинуть границы возможностей контекстного рассуждения языковой модели.
Вот как это работает:
Исследователи берут совершенно случайное, вырванное из контекста утверждение («игла») и зарывают его глубоко в огромную коллекцию несвязанных между собой документов («стог сена»). Затем перед моделью ИИ ставится задача извлечь это конкретное «игольчатое» утверждение из всего окружающего нерелевантного контента.
Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки — понимать широкий контекст, делать логические выводы, игнорировать ненужную информацию и точно извлекать точные данные из большого массива данных. Это эффективный способ подвергнуть ИИ стресс-тестированию понимания общей ситуации, в которой он действует.
Для оценки Claude 3 Opus, вызвавшей удивление, Anthropic использовала в качестве «стога сена» документы, охватывающие сложные темы, такие как программирование программного обеспечения, стратегии предпринимательства и поиск успешной карьеры. Тот факт, что Опусу было поручено найти случайно вставленную «иглу»? Удивительно, но это было тривиальное утверждение о том, что лучшими начинками для пиццы являются инжир, прошутто и козий сыр.
Итак, перед вами одна из самых продвинутых в мире языковых моделей, которой кормят этот совершенно вырванный из контекста факт о пицце, смешанный с кучей плотных советов по карьере и программированию. С человеческой точки зрения, это такое явное несоответствие, которое сразу же заставит вас усомниться в контексте и представляемой информации.
«Я подозреваю, что этот факт… мог быть вставлен… чтобы проверить, внимательно ли я»
Именно это сделало ответ Клода 3 Опуса таким убедительным. Он не только успешно извлек запрошенный факт о пицце из горы нерелевантного контента, но и сразу же осознал, насколько неуместным и вырванным из контекста это утверждение кажется. Часть его вывода читается ( ):
«Однако это предложение кажется совершенно неуместным и не связанным с остальным содержанием… Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для проверки того, внимательно ли я обращал внимание, поскольку он не соответствует вообще другие темы».
Языковая модель не просто извергала запрошенный факт, лишенный какой-либо контекстной осведомленности, как можно было бы ожидать от типичного ИИ, следующего инструкциям. Это продемонстрировало определенную степень саморефлексивного рассуждения о том, почему такое явно случайное и бессмысленное заявление было представлено в этом конкретном контексте.
Метапознание
Говоря человеческим языком, мы бы описали это как проявление метапознания — способности отслеживать, оценивать и анализировать собственные мыслительные процессы и когнитивный опыт. Это ключевой аспект самосознательного интеллекта, который позволяет нам сделать шаг назад и оценить ситуацию целостно, а не просто следовать жестким правилам.
Я думаю, нам следует с осторожностью отметить, что это единичный неподтвержденный результат изолированного сценария оценки. Было бы невероятно преждевременно утверждать, что Клод 3 Опус достиг истинного самосознания или искусственного общего интеллекта, основываясь только на этих данных.
Однако то, что они стали свидетелями, возможно, — это проблески новых возможностей метакогнитивного рассуждения в большой языковой модели, обученной исключительно обработке текстовых данных с использованием методов машинного обучения. И если это будет воспроизведено посредством тщательного дальнейшего анализа, последствия могут быть преобразующими.
Метапознание является ключевым фактором создания более заслуживающих доверия и надежных систем искусственного интеллекта, которые могут действовать как беспристрастные судьи своих собственных результатов и процессов рассуждения. Модели с врожденной способностью распознавать противоречия, бессмысленные входные данные или рассуждения, нарушающие основные принципы, могли бы стать важным шагом на пути к безопасному общему искусственному интеллекту (AGI).
По сути, ИИ, демонстрирующий метапознание, может служить внутренней «проверкой здравомыслия» против впадения в обманчивые, бредовые или несогласованные способы рассуждения, которые могут оказаться катастрофическими, если довести их до крайности. Это может значительно повысить надежность и контроль передовых систем искусственного интеллекта.
Если…!
Конечно, это большие «если», зависящие от этой дразнящей «Иглы в стоге сена», являющейся результатом успешного воспроизведения и тщательного изучения «Клода 3 Опуса». Чтобы по-настоящему понять, наблюдаем ли мы появление примитивов машинной саморефлексии и самосознания, возможно, потребуется строгий междисциплинарный анализ, основанный на таких областях, как когнитивная наука, нейронаука и информатика.
На данном этапе остается гораздо больше открытых вопросов, чем ответов. Могут ли подходы к обучению и нейронная архитектура больших языковых моделей использоваться для разработки абстрактных концепций, таких как убеждение, внутренний монолог и самовосприятие? Каковы потенциальные опасности, если искусственный разум создаст реальность, радикально отличающуюся от нашей? Можем ли мы создать новые основы для надежной оценки познания и самосознания в системах искусственного интеллекта?
Со своей стороны, Anthropic заявила о твердой приверженности исчерпывающему осуществлению этих направлений исследований посредством принципов ответственной разработки ИИ и строгих рамок оценки. Они позиционируют себя как принимающие — если передовой искусственный интеллект является неизбежным рубежом, наиболее этично быть на переднем крае изучения новых свойств этих систем и внедрения мер безопасности до того, как риски обострятся.
Такие методы, как подход Anthropic «Конституциональный ИИ» к жесткому кодированию правил и поведения в модели, могут оказаться решающими для обеспечения соответствия любого потенциального машинного самосознания человеческой этике и ценностям. Обширное многогранное тестирование, выявляющее виды отказов, манипуляции и обман, также, вероятно, будет иметь первостепенное значение.
Вывод: я не совсем уверен, что с этим делать.
На данный момент инцидент с «Иголкой в стоге сена» оставляет больше вопросов, чем ответов о потенциальном продвижении крупных языковых моделей к познанию и самосознанию. Это дает заманчивые данные, но требуется гораздо больше внимания со стороны более широкого исследовательского сообщества в области искусственного интеллекта.
Если продвинутый ИИ действительно разовьет человеческую способность к саморефлексии, руководствуясь строгими этическими принципами, он может фундаментально переопределить наше понимание самого интеллекта. Но это риторическое «если» в настоящее время наполнено высокой неопределенностью, которая требует ясного и ищущего истины расследования с участием всех соответствующих дисциплин. Погоня будет столь же захватывающей, сколь и значимой.