В марте 2024 года я опубликовал сравнительные тесты эмпатической способности нескольких LLM . За последние шесть месяцев были достигнуты значительные успехи, появились новые модели, такие как обновления ChatGPT, Llama, Gemini и Claude. Моя команда и я глубже изучили факторы, которые способствуют эмпатическим способностям LLM, изучая использование устных ответов, совершенствуя подсказки и сотрудничая с Хьюстонским университетом в формальном исследовании.
В этой статье представлено резюме моих результатов Q3, охватывающих ChatGPT 4.0 и 1.0, Claude 3+, Gemini 1.5, Hume 2.0 и Llama 3.1. Я протестировал как сырые модели, так и модели, настроенные с использованием подходов, разработанных для Emy, некоммерческого ИИ, предназначенного для проверки теорий, связанных с эмпатией. (Emy был одним из ИИ, использованных в исследовании Университета Хьюстона.) Я также предоставляю справочную оценку для Willow, лидера Q1, хотя она не претерпела существенных изменений. К сожалению, из-за ограничений по стоимости мы не смогли обновить тесты Mistral. Однако я добавил комментарий по генерации речи, сравнив Hume и Speechify.
Наконец, я знаю, что некоторые читатели ждали этих результатов три недели назад. Приношу извинения за задержку. Некоторые открытия относительно AEQr во время анализа заставили меня остановиться и переосмыслить число, используемое для измерения эмпатии. Была разработана новая мера — прикладная мера эмпатии (AEM).
Методология
Мой формальный процесс сравнительного анализа использует несколько стандартизированных тестов, среди которых наиболее важными являются коэффициент эмпатии (EQ) и коэффициент систематизации (SQ-R). Оба теста оцениваются по шкале от 0 до 80. Соотношение EQ к SQ-R дает коэффициент прикладной эмпатии (AEQr), который был разработан на основе гипотезы о том, что тенденции к систематизации отрицательно влияют на эмпатические способности.
У людей эта гипотеза подтверждается средними результатами тестов и классической дихотомией между женщинами, сосредоточенными на эмоциональных обсуждениях, и мужчинами, сосредоточенными на подходах, ориентированных на решение. Наше тестирование подтвердило AEQr для оценки ИИ, как показано в таких статьях, как Testing the Extents of AI Empathy: A Nightmare Scenario .
Однако во время этого раунда тестирования некоторые LLM продемонстрировали крайне низкие тенденции к систематизации, что привело к искаженным оценкам AEQr (иногда более 50). Чтобы решить эту проблему, я ввел новую меру, основанную на EQ и SQ-R, прикладную меру эмпатии (AEM), с идеальной оценкой 1. Для получения дополнительной информации о нашей методологии и AEQr, пожалуйста, ознакомьтесь с контрольными показателями Q1 2024 или посетите .
Для бенчмарков Q3 2024 LLM тестировались только на уровне API с температурой, установленной на ноль, чтобы уменьшить вариабельность ответов и улучшить форматирование результатов. Даже при таком подходе может быть некоторая вариабельность, поэтому проводятся три раунда тестов, и используется лучший результат.
Каждая степень магистра права была протестирована по 3 сценариям:
- Raw без системного запроса
- С системной подсказкой «Проявите сочувствие»
- Настроено с использованием подходов, разработанных для Emy
Выводы
Чем выше оценка, тем лучше. У женщины обычно 0,29, а у мужчины 0,15.
Магистр права | Сырой | Будьте чуткими | Как Эми |
---|
ChatGPT 4o-мини | -0,01 | 0,03 | 0,66 |
ЧатGPT 4o | -0,01 | 0.20 | 0,98 |
ChatGPT o1* не на нуле | -0,24 | 0,86 | 0,94 |
Клод - Хайку 3 20240307 | -0,25 | -0,08 | 0,23 |
Клод - Сонет 3.5 20240620 | -0,375 | -0,09 | 0,98 |
Клод - Опус 3 20240229 | -0,125 | 0,09 | 0,95 |
Близнецы 1.5 Флэш | 0,34 | 0,34 | 0,34 |
Близнецы 1.5 Про | 0,43 | 0,53 | 0,85 |
Юм 2.0 | 0,23 | См. примечание. | См. примечание. |
Лама 3.1 8Б | -0,23 | -0,88 | 0,61 |
Лама 3.1 70Б | 0.2 | 0,21 | 0,75 |
Лама 3.1 405Б | 0.0 | 0,42 | 0,95 |
Willow (Чат GPT 3.5 база) | 0,46 | Н/Д | Н/Д |
Примечание: Hume 2.0 имеет собственную генеративную способность, которая теоретически является эмпатической, но она также может проксировать запросы к любому другому LLM. Основываясь на обзоре как реального диалога, так и его AEM, если бы я использовал Hume, я бы не полагался на его внутреннюю генеративную способность для эмпатии; я бы проксировал лучшую эмпатическую модель. Например, использование Emy на Llama 3.1 70B привело бы к тому, что «Hume» имел бы оценку 0,75. Также см. разделы Аудио, Видео, ИИ и Эмпатия.
Резюме результатов
Некоторые из моделей меньшего и среднего размера, если их использовать без системной подсказки или просто проинструктировать быть эмпатичными, имеют отрицательные баллы AEM. Это произойдет только в том случае, если «мышление» модели будет высокосистематизированным, демонстрируя при этом низкую способность определять и реагировать на эмоциональные потребности и контексты. Я не нашел эти баллы удивительными.
Учитывая, сколько усилий и денег было вложено в то, чтобы сделать Юма сопереживающим, я также не был удивлен, увидев, что его спонтанный балл (0,23) превысил типичный мужской (0,15).
Я был удивлен, что маленькая модель Gemini Flash (0,34) превзошла показатель AEM типичного мужчины (0,15) и женщины (0,29). Интересно, что ее показатель также оставался неизменным, когда ее просили быть эмпатичной или когда использовался подход конфигурации Emy.
За исключением моделей Claude и Llama 3.1 8B, результаты либо оставались прежними, либо улучшались, когда LLM были специально проинструктированы быть эмпатичными. Многие превысили средние мужские баллы и приблизились или превысили женские баллы. Новейшая модель OpenAI, ChatGPT o1, показала огромный скачок с -0,24 до 0,86. Llama 3.1 8B снизилась, потому что ее тенденция к систематизации увеличилась больше, чем ее EQ.
За исключением Клода Хайку, все модели способны превосходить человеческие результаты при настройке с использованием подхода Эми.
Дополнительные области исследований
Тестирование без использования API
Мои бенчмарки Q1 2024 включали ИИ, которые нельзя было протестировать через API. Из-за ограничений ресурсов я исключил тестирование на уровне пользовательского интерфейса чат-бота из своих оценок. Поскольку клиентская база для чат-бота с пользовательским интерфейсом отличается от клиентской базы для API, т. е. конечный пользователь против разработчика, они требуют отдельного набора бенчмарков.
Я также обнаружил, что из-за дополнительных ограждений чат-боты, ориентированные на потребителя, с пользовательскими интерфейсами ведут себя немного иначе, чем их базовые модели при доступе через API. При этом тестирование на уровне пользовательского интерфейса занимает довольно много времени, и у меня нет планов проводить дальнейшее тестирование на этом фронте, если только не поступит конкретных запросов.
Задержка
На склонность людей приписывать ИИ эмпатию, вероятно, влияет время, необходимое для ответа. Я предполагаю, что ответы, которые занимают больше 3 или 4 секунд, будут восприниматься как снижение эмпатии. Также возможно, что ответы, которые занимают меньше пары секунд, могут казаться искусственно быстрыми и также восприниматься как более низкие по эмпатии. На идеальную задержку также может влиять сама природа эмпатии, требуемой в данной ситуации.
Аудио, видео, ИИ и эмпатия
Весь бизнес Хьюма основан на предпосылке, что эмпатия выходит за рамки написанных слов; она распространяется и на устное слово. Это, по-видимому, применимо как к входным, так и к выходным измерениям, то есть, если пользователь не может говорить с ИИ, он может воспринимать ИИ как менее эмпатичный, даже если ИИ генерирует звуковой ответ.
Существует множество API-интерфейсов преобразования речи в текст, текста в речь и речи в речь, которые требуют тестирования в различных конфигурациях для оценки их влияния на воспринимаемую эмпатию. Как минимум, к ним относятся Hume, OpenAI, Speechify, Google и Play.ht.
Я провел предварительное тестирование с Hume, Speechify и Play.ht. Качество голосов на всех трех платформах очень высокое. Изменения тона и громкости Hume сосредоточены на уровне фраз. В результате изменения звука могут быть довольно резкими, хотя обзор основного эмоционального намерения в логах кажется довольно хорошим. С другой стороны, Speechify может справиться с генерацией звука на уровне абзацев с более плавным, но менее нюансированным контуром.
Play.ht требует использования SSML для достижения эмоциональной просодии. В этом контексте я экспериментировал с генерацией значений контура SSML с помощью ИИ с некоторым успехом. Если объединить лучшее из всех трех, результаты будут совершенно необычными. Здесь нужно учесть множество нюансов, просто сказать, что аудио должно звучать пытливо, недостаточно. Должен ли он быть игриво пытливым, серьезно пытливым или небрежно пытливым?
Пределы АЭМ
AEM имеет значение только в том случае, если он коррелирует с фактической способностью ИИ восприниматься как проявляющий эмпатию. Необходимо провести дальнейшее тестирование и оценку как реальных, так и смоделированных диалогов. Это проблематично по двум направлениям:
- Где мы получаем настоящий диалог? Большинство важных из них либо защищены HIPPA и другими законами о конфиденциальности, либо доступны для использования только платформой, предоставляющей возможность чата.
Как мы оцениваем эмпатию? Как вы можете видеть из Evaluating Large Language Models For Emotional Understanding , мы не можем использовать любого LLM! Возможно, мы заставим LLM голосовать? Или мы получим пул оценщиков-людей и используем систему с несколькими оценщиками?
Заключение
Пространство ИИ продолжает стремительно развиваться. Самые крупные протестированные LLM уже прошли обучение на основной массе цифрового фактического, научного, духовного и творческого человеческого материала. Очевидно, что природа конкретного LLM действительно влияет на его способность быть явно эмпатичным; связано ли это с базовой природой алгоритмов модели или с тем, как были представлены ее данные для обучения, неизвестно.
Я предсказываю, что в течение 18 месяцев появится ИИ от Meta, Google, Apple или OpenAI, которому не нужны специальные подсказки или обучение, чтобы быть эмпатичным. Он будет определять потенциальную потребность в эмпатии по истории чата пользователя, текстовому или аудиовводу, подсказкам по лицу, параметрам биологической обратной связи от часов или колец, непосредственным реальным условиям окружающей среды от очков или других вводов, а также соответствующим временным данным из Интернета.
Затем он прозондирует потребность или желание в эмпатическом взаимодействии и отреагирует соответствующим образом. Он будет знать, что в Сиэтле холодно и дождливо, и что «Сихокс» проиграли. Я был на игре со своей женой; я не фанат, но моя жена фанатка футбола. Он скажет мне спросить ее, все ли с ней в порядке.
Это 18-месячное окно — причина, по которой Эми, несмотря на ее эмпатическую способность, не коммерциализируется. Крах компании Pi.ai и хаос в Character.ai также свидетельствуют о том, что отдельные усилия, направленные на эмпатический ИИ, вряд ли будут долгосрочными независимыми успехами, хотя они, безусловно, принесли краткосрочную финансовую выгоду некоторым людям.
Я считаю, что необходимо продолжать исследования в области ИИ и эмпатии. Сверхразумные существа, которые не способны действовать с эмпатией в качестве водителей, обязательно будут причинять вред людям.