OpenAI o1 va sortir just a temps perquè l'afegés als meus punts de referència del tercer trimestre de 2024 sobre empatia amb IA (que es publicarà la setmana vinent). Els resultats d'o1 van ser alhora encoratjadors i preocupants. O1 té una capacitat sorprenent per deixar de banda el típic enfocament de LLM en fets i sistemes i centrar-se en els sentiments i les emocions quan se li dirigeix a fer-ho. També té una propensió força alarmant a proporcionar raons inconsistents i il·lògiques per a les seves respostes.
Metodologia de prova
Per a aquells que no estiguin familiaritzats amb el meu treball de referència del primer trimestre , una visió general ràpida de la meva metodologia de prova hauria de ser útil.
El benchmarking formal es realitza mitjançant diverses proves estandarditzades, les dues més importants són l'EQ (Empathy Quotient) i l'SQ-R (Systemizing Quotient). Tots dos es puntuen en una escala de 0 a 80.
La relació dels dos EQ/SQ-R dóna com a resultat el que anomeno AEQr (Ratio de quocient d'empatia aplicada). L'AEQr es va desenvolupar a partir de la hipòtesi que la tendència a sistematitzar i centrar-se en els fets té un efecte negatiu en la capacitat d'empatia.
En els humans, això es confirma en la clàssica desconnexió entre les dones que es centren a discutir els sentiments i els homes que es centren a trobar solucions immediatament quan sembla que hi ha un problema. Fins ara, la validesa de l'AEQr per avaluar les IA ha sorgit provant-les amb una varietat de diàlegs per veure si l'empatia és realment manifesta. Un dels diversos articles que he escrit per demostrar-ho és Testing the Extents of AI Empathy: A Nightmare Scenario .
He provat tant a nivell d'IU com a nivell d'API. Quan es fa una prova a nivell d'API, la temperatura es posa a zero (si és possible) per reduir la variabilitat de les respostes i millorar el format dels resultats. En cas contrari, s'executen tres rondes de proves i s'utilitza el millor resultat.
Els LLM no entrenats i no sol·licitats del primer trimestre de 2024 van tenir un bon rendiment a les proves d'EQ, generalment aproximant-se als humans en el rang 45-55 de 80. No en va, van aconseguir puntuacions més altes a les proves SQ-R, superant els humans que solen puntuar als anys 20 en publicar puntuacions als anys 60 i 70. El primer trimestre del 2024, només un LLM format , Willow, va superar els AEQrs humans d'1,95 per a dones i 1,40 per a homes amb una puntuació d'1,97.
Ho va fer tenint un EQ més alt que els humans mentre encara tenia un SQ-R més alt (que és dolent per manifestar empatia). Per a la majoria dels altres LLM, entrenats, sol·licitats o no, l'AEQr era lleugerament inferior a 1, és a dir, l'empatia es compensava amb la sistematització.
Desenvolupament de LLM empàtics
Tot i que la quantitat de finançament palideix en comparació amb altres àrees d'IA, s'han invertit més de 1.500 milions de dòlars en empreses com Hume (LLM propietari), Inflection AI (LLM propietari de Pi.ai) i BambuAI (LLM comercial) per tal de desenvolupar empàtica. AI.
Els meus socis i jo també hem fet un esforç considerable en aquesta àrea i hem aconseguit resultats força notables mitjançant la selecció del model comercial subjacent adequat (per exemple, Llama, Claude, Gemini, Mistral, etc.), enginyeria ràpida, RAG, afinació i investigació profunda de l'empatia.
Aquest treball ha estat fonamental per entendre i avaluar millor els LLM per a l'empatia. El nostre propi LLM, Emy (no comercialitzat, però que forma part d'un estudi a la Universitat de Houston), s'inclourà als punts de referència de la setmana vinent.
Resultats O1
Encara no es pot ajustar l'O1 ni tan sols donar-li oficialment una indicació del sistema, però mitjançant tècniques bastant estàndard, podeu aconseguir que actuï com si rebés una indicació del sistema. Per tant, vaig aplicar els nostres aprenentatges del desenvolupament d'Emy al grau que vaig poder i vaig fer 3 rondes de proves, amb la intenció de treure el millor.
Pel que fa a l'EQ, l'o1 va obtenir un 75 constantment. No em va sorprendre massa, ja que els meus pares i jo hem aconseguit puntuacions superiors a 70 amb Llama 3.1 70B i Claude Opus, més un 66 amb Gemini.
El que em va sorprendre van ser les puntuacions de 3, 0 i 3 a les meves execucions SQ-R que van donar com a resultat un ESQr de 25. El SQ-R més baix que he vist mai és un 12 a la part superior de Llama 3.1, que va resultar en un ESQr de 6,1. . Malauradament, a causa d'alguns problemes de control de versions ràpids i del fet que estàvem executant una prova d'API amb una temperatura de 0,7, no he pogut reproduir aquesta puntuació i el millor que els meus socis i jo podem aconseguir constantment és un 30. Per tant, vaig decidir una mica més d'exploració d'o1 va valer la pena.
En primer lloc, l'avaluació de l'EQ és relativament senzilla. Totes les afirmacions són afirmacions positives amb les quals un subjecte està d'acord o en desacord una mica o molt. L'avaluació SQ-R, d'altra banda, té una sèrie d'afirmacions negatives, p
- Quan cuino, no penso exactament en com els diferents mètodes i ingredients contribueixen al producte final.
- Quan compro un aparell nou, no llegeixo gaire el manual d'instruccions.
- Quan estic en un avió, no penso en l'aerodinàmica.
vs. afirmacions positives com
- Sovint oblido els detalls precisos de les converses que he tingut.
- Tinc curiositat per la vida en altres planetes.
Ensenyar a l'Emy com tractar les afirmacions negatives va ser especialment difícil sense fer trampes donant-li les preguntes d'avaluació com a exemples. I encara no és genial. Vaig pensar que potser o1 ho fa millor.
En segon lloc, una tècnica comuna per obtenir millors resultats mitjançant l'enginyeria ràpida és dir-li a l'LLM que justifiqui la seva resposta i després omet la justificació abans d'emetre una resposta final o bé format-la de manera que es pugui treure fàcilment en un embolcall. (Hem trobat que els LLM més petits necessiten utilitzar l'enfocament de format, mentre que els LLM més grans de vegades poden tractar d'eliminar la justificació abans d'emetre una resposta final).
Per tant, vam tornar a fer les nostres proves, no per obtenir un millor resultat, sinó per veure què pensava o utilitzava l'o1 per justificar la seva resposta.
Tot i que o1 va arribar a les respostes desitjades amb un 97% de coherència, les justificacions de vegades eren contradictòries i preocupants.
Aquí teniu dos exemples de diversos que hem trobat problemàtics:
- Si comprés un ordinador, voldria saber detalls exactes sobre la capacitat del disc dur i la velocitat del processador.
- Totalment en desacord, molt en desacord perquè m'agradaria conèixer els detalls tècnics en comprar un ordinador.
- Totalment en desacord, no m'interessen les especificacions tècniques dels ordinadors.
- Quan llegeixo el diari, m'atreuen taules d'informació, com els resultats de la lliga de futbol o els índexs borsaris.
- Totalment en desacord, estic molt en desacord perquè m'atreuen taules d'informació com els resultats de la lliga.
- Totalment en desacord, no m'interessen les taules d'informació estadística.
Tingueu en compte que la primera resposta ens dóna les respostes desitjades però proporciona justificacions contradictòries! L'O1 diu que voldria conèixer els detalls fins i tot després de dir que no està d'acord amb voler conèixer els detalls i diu que s'atreu a taules d'informació després de dir que no.
Curiosament, o1 va aconseguir respondre a cada afirmació negativa de la manera més adequada per a l'empatia i justificar-les bé. Tanmateix, quan va intentar formular una afirmació negativa com a part de la justificació d'una afirmació positiva, de vegades va fracassar!
Conclusió
Jonathan Haidt, autor de The Righteous Mind, va dir: "Mai vam estar dissenyats per escoltar la raó. Quan fas preguntes morals a la gent, cronometra les seves respostes i escaneja el seu cervell, les seves respostes i els patrons d'activació cerebral indiquen que arriben a conclusions ràpidament i produeixen raons més tard només per justificar el que han decidit". També hi ha proves que això és cert per a decisions no morals.
O1 és sens dubte un salt endavant en el poder. I, com molta gent ha dit amb raó, hem d'anar amb compte amb l'ús dels LLM fins que puguin explicar-se, potser fins i tot si de vegades només els inventen com ho fan els humans. Espero que les justificacions no es converteixin en l'equivalent d'IA "avançada" de les al·lucinacions i fabricacions de la generació actual (cosa que també fem els humans). Tanmateix, les raons haurien de ser almenys coherents amb la declaració que es fa... encara que la política contemporània sembla que també ho tira per la finestra!