OpenAI o1 kom ud lige i tide til, at jeg kunne tilføje den til mine 2024 Q3-benchmarks om AI-empati (udgives i næste uge). Resultaterne for o1 var på én gang opmuntrende og bekymrende. O1 har en forbløffende evne til at lægge det typiske LLM-fokus på fakta og systemer til side og fokusere på følelser og følelser, når det bliver bedt om at gøre det. Den har også en ret alarmerende tilbøjelighed til at give inkonsekvente og ulogiske grunde til sine svar.
Testmetode
For dem, der ikke er bekendt med mit benchmarkarbejde i Q1 , bør et hurtigt overblik over min testmetode være nyttigt.
Formel benchmarking udføres ved hjælp af flere standardiserede tests, de vigtigste to er EQ (Empathy Quotient) og SQ-R (Systemizing Quotient). Begge scores på en skala fra 0 til 80.
Forholdet mellem de to EQ/SQ-R resulterer i det, jeg kalder AEQr (Applied Empathy Quotient Ratio). AEQr er udviklet ud fra den hypotese, at tendensen til at systematisere og fokusere på fakta har en negativ effekt på evnen til empati.
Hos mennesker viser dette sig i den klassiske afbrydelse mellem kvinder, der fokuserer på at diskutere følelser, og mænd, der fokuserer på straks at finde løsninger, når der ser ud til at være et problem ved hånden. Til dato er gyldigheden af AEQr til evaluering af AI'er blevet født ved at teste dem med en række dialoger for at se, om empati faktisk er åbenbar. En artikel af flere, som jeg har skrevet for at demonstrere dette, er Testing the Extents of AI Empathy: A Nightmare Scenario .
Jeg har testet både på UI-niveau og API-niveau. Ved test på API-niveau indstilles temperaturen til nul (hvis muligt) for at reducere svarvariabiliteten og forbedre resultatformateringen. Ellers køres tre testrunder og det bedste resultat bruges.
De utrænede og uopfordrede LLM'er i Q1 2024 klarede sig moderat godt i EQ-tests, og de tilnærmede sig generelt mennesker i intervallet 45-55 ud af 80. Ikke overraskende opnåede de højere score på SQ-R-tests, der oversteg mennesker, der typisk scorer i 20'erne ved at sende score i 60'erne og 70'erne. I første kvartal af 2024 oversteg kun én uddannet LLM, Willow, de humane AEQr på 1,95 for kvinder og 1,40 for mænd ved at score 1,97.
Det gjorde det ved at have en højere EQ end mennesker, mens den stadig havde en højere SQ-R (hvilket er dårligt til at manifestere empati). For de fleste andre LLM'er, trænet, tilskyndet eller ej, var AEQr lidt mindre end 1, dvs. empati blev opvejet af systemisering.
Udvikling af empatiske LLM'er
Selvom mængden af finansiering blegner i forhold til andre områder af AI, er der investeret over 1,5 milliarder dollars i virksomheder som Hume (proprietær LLM), Inflection AI (Pi.ai proprietær LLM) og BambuAI (kommerciel LLM) for at udvikle empatisk AI'er.
Mine partnere og jeg har også gjort en betydelig indsats på dette område og opnået ret bemærkelsesværdige resultater gennem valget af den rigtige underliggende kommercielle model (f.eks. Llama, Claude, Gemini, Mistral osv.), prompt engineering, RAG, finjustering og dyb forskning i empati.
Dette arbejde har været afgørende for bedre at forstå og evaluere LLM'er for empati. Vores egen LLM, Emy (ikke kommercialiseret, men en del af en undersøgelse ved University of Houston), vil blive inkluderet i næste uges benchmarks.
O1 resultater
O1 kan endnu ikke indstilles eller endda officielt få en systemprompt, men gennem ret standardteknikker kan du få den til at virke som om den modtog en systemprompt. Så jeg anvendte vores erfaringer fra at udvikle Emy i den grad, jeg kunne, og kørte 3 testrunder med den hensigt at tage det bedste.
Med hensyn til EQ scorede o1 konsekvent 75. Jeg var ikke så overrasket over dette, da mine forældre og jeg har opnået resultater på over 70 med Llama 3.1 70B og Claude Opus, plus en 66 med Gemini.
Det, der overraskede mig, var score på 3, 0 og 3 på mine SQ-R-kørsler, hvilket resulterede i en ESQr på 25. Den laveste SQ-R, jeg nogensinde har set, er en 12 på toppen af Llama 3.1, hvilket resulterede i en ESQr på 6,1 . På grund af nogle hurtige versionskontrolproblemer og det faktum, at vi kørte en API-test med en temperatur på 0,7, har jeg desværre ikke været i stand til at gengive denne score, og det bedste, som mine partnere og jeg konsekvent kan opnå, er en 30. Så jeg besluttede mig for noget mere udforskning af o1 var umagen værd.
For det første er EQ-vurderingen forholdsvis ligetil. Alle udsagn er positive påstande, som en subjekt enten er enig eller uenig i noget eller meget. SQ-R vurderingen har på den anden side en række negative påstande, f.eks
- Når jeg laver mad, tænker jeg ikke over præcis, hvordan forskellige metoder og ingredienser bidrager til det endelige produkt.
- Når jeg køber et nyt apparat, læser jeg ikke brugsanvisningen særlig grundigt.
- Når jeg er på et fly, tænker jeg ikke på aerodynamik.
vs positive påstande som
- Jeg glemmer ofte de præcise detaljer i de samtaler, jeg har haft.
- Jeg er nysgerrig efter livet på andre planeter.
At lære Emy at håndtere negative påstande var særligt svært uden at snyde ved at give hende vurderingsspørgsmålene som eksempler. Og hun er stadig ikke god. Jeg troede måske o1 gør det bedre.
For det andet er en almindelig teknik til at få bedre resultater via prompt engineering at fortælle LLM'en om at begrunde sit svar og derefter enten udelade begrundelsen, før den udsender et endeligt svar, eller formatere det på en måde, der nemt kan fjernes i en indpakning. (Vi har fundet ud af, at mindre LLM'er skal bruge formateringstilgangen, mens større LLM'er nogle gange kan håndtere at fjerne begrundelsen, før de udsender et endeligt svar).
Så vi kørte vores tests igen, ikke for at få et bedre resultat, men for at se, hvad o1'eren tænkte eller brugte for at retfærdiggøre sit svar.
Selvom o1 kom til de ønskede svar med 97 % konsistens, var begrundelserne nogle gange modstridende og bekymrende.
Her er to eksempler fra flere, vi fandt problematiske:
- Hvis jeg købte en computer, ville jeg gerne vide nøjagtige detaljer om dens harddiskkapacitet og processorhastighed.
- Helt uenig, jeg er meget uenig, fordi jeg gerne vil vide de tekniske detaljer, når jeg køber en computer.
- Helt uenig, jeg er ikke interesseret i de tekniske specifikationer for computere.
- Når jeg læser avisen, bliver jeg tiltrukket af informationstabeller, såsom fodboldligaresultater eller aktiemarkedsindekser.
- Helt uenig, jeg er meget uenig, fordi jeg er tiltrukket af informationstabeller som f.eks. ligaresultater.
- Helt uenig, jeg er ikke interesseret i tabeller med statistiske oplysninger.
Bemærk, at det første svar giver os de ønskede svar, men giver modstridende begrundelser! O1 siger, at den gerne vil kende detaljerne selv efter at have sagt, at den er uenig i at ville vide detaljerne, og siger, at den trækkes til informationstabeller efter at have sagt, at den ikke er det.
Interessant nok formåede o1 at besvare hver eneste negative påstand på den måde, der er bedst for empati og retfærdiggøre dem godt. Men når den forsøgte at formulere en negativ påstand som en del af en begrundelse for en positiv påstand, mislykkedes det nogle gange!
Konklusion
Jonathan Haidts forfatter til The Righteous Mind sagde: "Vi var aldrig designet til at lytte til fornuft. Når du stiller folk moralske spørgsmål, timer deres svar og scanner deres hjerner, viser deres svar og hjerneaktiveringsmønstre, at de når hurtigt til konklusioner og frembringer grunde senere for kun at retfærdiggøre det, de har besluttet." Der er også beviser for, at dette er sandt for ikke-moralske beslutninger.
O1 er uden tvivl et spring fremad i magten. Og, som mange mennesker med rette har sagt, skal vi være forsigtige med brugen af LLM'er, indtil de kan forklare sig selv, måske selvom de nogle gange bare finder på dem, som mennesker kan gøre. Jeg håber, at begrundelser ikke bliver den "avancerede" AI-ækvivalent til den nuværende generations hallucinationer og opspind (noget mennesker også gør). Begrundelserne bør dog i det mindste være i overensstemmelse med den udtalelse, der bliver fremsat … selvom nutidig politik også ser ud til at smide det ud af vinduet!