Во март 2024 година, објавив репери кои ја споредуваат емпатичната способност на повеќе LLM . Во текот на изминатите шест месеци, постигнати се значителни напредоци, при што се појавија нови модели, како што се надградбите на ChatGPT, Llama, Gemini и Claude. Мојот тим и јас навлегувавме подлабоко во факторите кои придонесуваат за емпатичните способности на LLM, истражувајќи ја употребата на говорни одговори, рафинирајќи ги инструкциите и соработувајќи со Универзитетот во Хјустон на формална студија.
Оваа статија претставува резиме на моите наоди во Q3, опфаќајќи ги ChatGPT 4.0 и 1.0, Claude 3+, Gemini 1.5, Hume 2.0 и Llama 3.1. Ги тестирав и необработените модели и моделите конфигурирани користејќи пристапи развиени за Еми, некомерцијална вештачка интелигенција дизајнирана да тестира теории поврзани со емпатија. (Еми беше една од вештачката интелигенција користена во студијата на Универзитетот во Хјустон). За жал, поради ограничувањата на трошоците, не можевме да ги ажурираме тестовите на Мистрал. Сепак, додадов коментар за генерирањето говор, споредувајќи ги Хјум и Speechify.
Конечно, знам дека некои читатели ги очекуваа овие резултати пред три недели. Се извинувам за доцнењето. Некои откритија за AEQr за време на анализата бараа да паузирам и повторно да размислам за бројот што се користи за мерење на емпатијата. Развиена е нова мерка, Применета мерка за емпатија (АЕМ).
Методологија
Мојот формален бенчмаркинг процес користи неколку стандардизирани тестови, при што најкритични се количникот на емпатија (EQ) и системски количник (SQ-R). И двата теста се бодуваат на скала од 0-80. Односот на EQ спрема SQ-R го дава Применетиот коефициент на емпатија (AEQr), кој беше развиен врз основа на хипотезата дека системизирачките тенденции негативно влијаат на емпатичните способности.
Кај луѓето, оваа хипотеза е поддржана од просечните резултати на тестовите и класичната дихотомија помеѓу жените кои се фокусираат на емоционалните дискусии и мажите кои се фокусираат на пристапите ориентирани кон решенија. Нашето тестирање го потврди AEQr за евалуација на вештачки интелигенција, како што е прикажано во написите како Тестирање на обемот на емпатија со вештачка интелигенција: Сценарио за кошмари .
Сепак, за време на овој круг на тестирање, некои LLM покажаа екстремно ниски тенденции за системизирање, што резултираше со искривени AEQr резултати (понекогаш и над 50). За да го решам ова, воведов нова мерка заснована на EQ и SQ-R, Применета мерка за емпатија (AEM), со совршена оцена од 1. За повеќе информации за нашата методологија и AEQr, ве молиме прегледајте ги одредниците за Q1 2024 или посетете .
За реперите за Q3 2024, LLM беа тестирани само на ниво на API со температурата поставена на нула за да се намали варијабилноста на одговорите и да се подобри форматирањето на резултатите. Дури и со овој пристап, може да има одредена варијабилност, па се извршуваат три круга на тестови и се користи најдобриот резултат.
Секој LLM беше тестиран под 3 сценарија:
- Суровини без системско известување
- Со системското барање „Биди сочувствителни“
- Конфигуриран со користење на пристапи развиени за Еми
Наоди
Повисок резултат е подобар. Човечката женка е типично 0,29, а мажјакот е 0,15.
LLM | Суровини | Бидете сочувствителни | Како Еми |
---|
ChatGPT 4o-mini | -0,01 | 0,03 | 0,66 |
ChatGPT 4o | -0,01 | 0,20 | 0,98 |
ChatGPT o1* не на нула | -0,24 | 0,86 | 0,94 |
Клод - Хаику 3 20240307 | -0,25 | -0,08 | 0,23 |
Клод - Сонет 3.5 20240620 | -0,375 | -0,09 | 0,98 |
Клод - Опус 3 20240229 | -0,125 | 0,09 | 0,95 |
Близнаци 1.5 блиц | 0,34 | 0,34 | 0,34 |
Gemini 1.5 Pro | 0,43 | 0,53 | 0,85 |
Хјум 2.0 | 0,23 | Види белешка | Видете ја белешката |
Лама 3.1 8Б | -0,23 | -0,88 | 0,61 |
Лама 3.1 70B | 0.2 | 0,21 | 0,75 |
Лама 3,1 405B | 0,0 | 0,42 | 0,95 |
Willow (Chat GPT 3.5 база) | 0,46 | N/A | N/A |
Забелешка: Hume 2.0 има своја генеративна способност која е теоретски емпатична, но исто така може да ги пренасочува барањата до кој било друг LLM. Врз основа на преглед и на вистинскиот дијалог и на неговиот AEM, ако го користев Хјум, не би се потпирал на неговата внатрешна генеративна способност за емпатија; Јас би се заложил за подобар емпатичен модел. На пример, користењето на Еми на Llama 3.1 70B ќе резултира со „Хјум“ да има резултат од 0,75. Исто така, видете ги деловите Аудио, Видео, ВИ и Емпатија.
Резиме на наодите
Некои од моделите со помала и средна големина кога се користат без системско известување или само наредени да бидат емпатични, имаат негативни резултати на AEM. Ова ќе се случи само ако „размислувањето“ на моделот е високо системизирано додека покажува мала способност да се идентификува и да одговори на емоционалните потреби и контексти. Овие резултати не ми се изненадувачки.
Со оглед на тоа колку напор и пари се вложени за Хјум да биде емпатичен, исто така не бев изненаден кога видов дека неговиот резултат (0,23) го надминува типичниот маж (0,15).
Бев изненаден што малиот Gemini Flash модел (0,34) го надмина резултатот AEM на типичен маж (0,15) и жена (0,29). Интересно, неговиот резултат исто така остана непроменет кога му беше кажано да бидете сочувствителни или кога се користеше пристапот за конфигурација на Еми.
Со исклучок на моделите Claude и Llama 3.1 8B, перформансите или останаа исти или се подобрија кога на LLM им беше конкретно наложено да бидат сочувствителни. Многумина ги надминаа просечните машки резултати и се приближија или ги надминаа женските резултати. Најновиот OpenAI модел, ChatGPT o1, покажа огромен скок од -0,24 на 0,86. Llama 3.1 8B се намали затоа што нејзината системска тенденција се зголеми повеќе од нејзиниот EQ.
Со исклучок на Клод Хаику, сите модели се способни да ги надминат човечките резултати кога се конфигурираат користејќи го пристапот за Еми.
Дополнителни области за истражување
Тестирање што не се базира на API
Моите репери од првиот квартал од 2024 година вклучуваа ВИ кои не можеа да се тестираат преку API. Поради ограничувања на ресурсите, го отфрлив тестирањето на ниво на интерфејс на chatbot од моите проценки. Бидејќи базата на клиенти за чет-бот со интерфејс е различна од онаа за API, т.е. краен корисник наспроти развивач, тие гарантираат посебен сет на одредници.
Исто така, открив дека поради дополнителните заштитни огради, чет-ботите свртени кон потрошувачите со кориснички интерфејс се однесуваат малку поинаку од нивните основни модели кога се пристапува преку API. Со оглед на тоа, тестирањето на ниво на интерфејс одзема многу време и немам планови да тестирам дополнително на тој фронт освен ако не се направат конкретни барања.
Латентност
Тенденцијата луѓето да припишуваат емпатија на вештачката интелигенција веројатно е под влијание на времето потребно за да се одговори. Претпоставувам дека одговорите кои траат подолго од 3 или 4 секунди ќе се перцепираат како опаѓање на емпатијата. Исто така, можно е одговорите кои траат помалку од неколку секунди да изгледаат вештачки брзи и исто така да се перцепираат како пониски во емпатија. На идеалната латентност може да влијае и самата природа на емпатијата потребна во дадена ситуација.
Аудио, видео, вештачка интелигенција и емпатија
Целиот бизнис на Хјум се заснова на премисата дека емпатијата оди подалеку од пишаните зборови; се протега и на изговорениот збор. Се чини дека ова важи и за влезните и за излезните димензии, т.е., ако корисникот не може да зборува со вештачка интелигенција, корисникот може да ја сфати вештачката интелигенција како помалку емпатична дури и ако вештачката интелигенција генерира аудио одговор.
Постојат повеќе API-и за говор во текст, текст во говор и говор во говор кои бараат тестирање во повеќе конфигурации за да се процени нивното влијание врз воочената емпатија. Во најмала рака, тие вклучуваат Hume, OpenAI, Speechify, Google и Play.ht.
Направив некои прелиминарни тестирања со Hume, Speechify и Play.ht. Квалитетот на гласовите на сите три платформи е многу висок. Промените на тонот и гласноста на Хјум се фокусирани на ниво на фраза. Како резултат на тоа, аудио промените може да бидат прилично застрашувачки, иако прегледот на основната емоционална намера во дневниците се чини дека е доста добар. Од друга страна, Speechify може да се справи со генерирањето аудио на ниво на пасус со помазна, но помалку нијансирана контура.
Play.ht бара употреба на SSML за да се постигне емоционална прозодија. Во овој контекст, со одреден успех експериментирав со генерацијата на SSML контурни вредности со помош на AI. Ако се спојат најдоброто од сите три, резултатите би биле прилично извонредни. Има многу нијанси со кои треба да се справиме овде, едноставно да се каже дека аудиото треба да звучи испитувачки е недоволно. Дали треба да биде разиграно испитувачки, сериозно испитувачки или случајно испитувачки?
Граници на AEM
АЕМ е важно само ако е во корелација со вистинската способност на вештачката интелигенција да се смета дека покажува емпатија. Потребно е дополнително тестирање и евалуација и на реалните и на симулираните дијалози. Ова е проблематично на два фронта:
- Каде го добиваме вистинскиот дијалог? Повеќето од важните се или заштитени со HIPPA и други закони за приватност или достапни за употреба само од платформата што обезбедува можност за разговор.
Како ја оценуваме емпатијата? Како што можете да видите од Евалуација на големи јазични модели за емоционално разбирање , не можеме да користиме ниту еден LLM! Можеби го имаме гласот на LLM? Или, пак, добиваме базен од човечки оценувачи и користиме систем со повеќе оценувачи?
Заклучок
Просторот за вештачка интелигенција продолжува брзо да се развива. Најголемите тестирани LLM веќе се обучени за најголемиот дел од дигитално достапни човечки фактички, научни, духовни и креативни материјали. Јасно е дека природата на специфичниот LLM има влијание врз неговата способност да биде очигледно емпатичен; Дали ова се должи на основната природа на алгоритмите на моделот или како се претставени неговите податоци за обука, не е познато.
Предвидувам дека во рок од 18 месеци ќе има вештачка интелигенција од Мета, Гугл, Епл или ОпенАИ на која нема потреба од специјално известување или обука за да биде сочувствителна. Ќе открие потенцијална потреба за емпатија од историјата на разговор на корисникот, текстуален или аудио внес, индиции за лицето, параметри за био-повратни информации од часовници или прстени, непосредни реални услови на животната средина од очилата или други влезови, плус релевантни податоци засновани на време од интернетот.
Потоа, ќе ја испита потребата или желбата за емпатичен ангажман и ќе одговори соодветно. Ќе знае дека е студено и дождливо во Сиетл и дека Сихокс изгубиле. Бев на натпреварот со жена ми; Јас не сум фан, но мојата сопруга е фудбалски фанатик. Ќе ми каже да ја прашам дали е добро.
Овој прозорец од 18 месеци е причината зошто Еми, и покрај нејзината емпатична способност, не е комерцијализирана. Колапсот на компанијата зад Pi.ai и хаосот во Character.ai се исто така доказ дека самостојните напори посветени на емпатичната вештачка интелигенција веројатно нема да бидат долгорочни независни успеси, иако тие секако значеа краткорочни финансиски придобивки за некои луѓе.
Верувам дека е потребно континуирано истражување за вештачката интелигенција и емпатијата. Суперинтелигентните ентитети кои не можат да работат со емпатија како возачи, сигурно ќе ги повредат луѓето.