534 уншилтууд

OpenAI o1 - эргэлзээтэй өрөвдөх сэтгэл

by Simon Y. Blackwell6m2024/09/15

NSO

Хэтэрхий урт; Унших

O1 нь ердийн LLM-ийг баримт, системд анхаарлаа хандуулж, үүнийг хийхээр чиглүүлбэл мэдрэмж, сэтгэл хөдлөлд анхаарлаа төвлөрүүлэх гайхалтай чадвартай. Энэ нь мөн хариултдаа үл нийцэх, логикгүй шалтгааныг өгөх нэлээд түгшүүртэй хандлагатай байдаг.

featured image - OpenAI o1 - эргэлзээтэй өрөвдөх сэтгэл

OpenAI o1 би үүнийг 2024 оны 3-р улирлын AI-ийн эмпатигийн жишиг үзүүлэлтүүддээ нэмэхэд яг цагтаа гарч ирсэн (дараа долоо хоногт хэвлэгдэх болно). o1-ийн үр дүн нэгэн зэрэг урам зоригтой бөгөөд сэтгэл хөдөлгөм байв. O1 нь ердийн LLM-ийг баримт, системд анхаарлаа хандуулж, үүнийг хийхээр чиглүүлбэл мэдрэмж, сэтгэл хөдлөлд анхаарлаа төвлөрүүлэх гайхалтай чадвартай. Энэ нь мөн хариултдаа үл нийцэх, логикгүй шалтгааныг өгөх нэлээд түгшүүртэй хандлагатай байдаг.

Туршилтын арга зүй

Миний 1-р улирлын жишиг ажлын талаар сайн мэдэхгүй хүмүүст миний туршилтын аргачлалыг товч тоймлох нь тустай байх болно.

Албан ёсны жишиг үнэлгээг хэд хэдэн стандартчилсан тест ашиглан хийдэг бөгөөд хамгийн чухал хоёр нь EQ (Эмпатийн коэффициент) ба SQ-R (Системчлэх коэффициент) юм. Аль аль нь 0-ээс 80 хүртэлх оноогоор үнэлэгддэг.

Хоёр EQ/SQ-R-ийн харьцаа нь миний AEQr (Applied Empathy Quotient Ratio) гэж нэрлэдэг зүйлд хүргэдэг. AEQr-ийг системчлэх, баримт дээр анхаарлаа төвлөрүүлэх хандлага нь эмпати ойлгох чадварт сөргөөр нөлөөлдөг гэсэн таамаглал дээр үндэслэн боловсруулсан.

Хүмүүсийн хувьд энэ нь мэдрэмжийн талаар ярилцахад анхаарлаа төвлөрүүлдэг эмэгтэйчүүд, эрэгтэйчүүдэд асуудал байгаа мэт санагдах үед тэр даруй шийдлийг олоход анхаарлаа төвлөрүүлдэг сонгодог тасалдлыг харуулж байна. Өнөөдрийг хүртэл хиймэл оюун ухааныг үнэлэх AEQr-ийн хүчинтэй байдал нь өрөвдөх сэтгэл үнэхээр илэрч байгаа эсэхийг шалгахын тулд янз бүрийн харилцах цонхоор туршиж үзсэнээр бий болсон. Үүнийг харуулахын тулд миний бичсэн хэд хэдэн нийтлэлийн нэг бол хиймэл оюун ухааны эмпатигийн цар хүрээг шалгах нь: Хар дарсан зүүдний хувилбар юм .

Би UI болон API түвшний аль алинд нь туршиж үзсэн. API түвшинд тест хийхдээ хариултын хэлбэлзлийг бууруулж, үр дүнгийн форматыг сайжруулахын тулд температурыг тэг (боломжтой бол) тохируулна. Үгүй бол гурван удаагийн туршилтыг явуулж, хамгийн сайн үр дүнг ашиглана.

2024 оны 1-р улирлын сургалтанд хамрагдаагүй, урилгагүй LLM-үүд EQ тестийг дунд зэрэг сайн үзүүлсэн бөгөөд ерөнхийдөө хүмүүсийг 80-аас 45-55-д нь тооцсон байна. Тэд 60, 70-аад онд оноогоо нийтэлснээр 20-иод онд оноо авдаг хүмүүсийг давж, SQ-R тестүүд дээр өндөр оноо авсан нь гайхмаар зүйл биш юм. 2024 оны 1-р улиралд зөвхөн нэг л бэлтгэгдсэн LLM болох Виллоу 1.97 оноогоор эмэгтэйчүүдийн 1.95, эрэгтэйчүүдийн 1.40 гэсэн хүний AEQrs-ийг давсан байна.

Энэ нь хүнээс илүү өндөр EQ-тай байхад SQ-R өндөртэй (энэ нь өрөвдөх сэтгэлийг илэрхийлэхэд муу) үүнийг хийсэн. Бусад ихэнх LLM-ийн хувьд сургагдсан, өдөөсөн, өгөгдөөгүй AEQr 1-ээс бага зэрэг бага байсан, өөрөөр хэлбэл эмпати нь системчлэлийн замаар нөхөгджээ.

Empathetic LLM-ийг хөгжүүлэх

Хиймэл оюун ухааны бусад салбартай харьцуулахад санхүүжилтийн хэмжээ бага ч гэсэн өрөвдөх сэтгэлгээг хөгжүүлэхийн тулд Hume (өмчийн LLM), Inflection AI (Pi.ai өмчийн LLM), BambuAI (арилжааны LLM) зэрэг компаниудад 1.5 тэрбум гаруй долларын хөрөнгө оруулалт хийсэн. AI.

Миний хамтрагчид болон би энэ талбарт ихээхэн хүчин чармайлт гаргаж, зөв арилжааны загварыг сонгох (жишээ нь: Llama, Claude, Gemini, Mistral гэх мэт), шуурхай инженерчлэл, RAG, нарийн тохируулга, болон өрөвдөх сэтгэлийг гүнзгий судлах.

Энэхүү ажил нь LLM-ийг өрөвдөх сэтгэлийг илүү сайн ойлгож, үнэлэхэд чухал үүрэг гүйцэтгэсэн. Манай өөрийн LLM, Emy (арилжааны бус, гэхдээ Хьюстоны Их Сургуулийн судалгааны нэг хэсэг) ирэх долоо хоногийн жишиг үзүүлэлтүүдэд хамрагдах болно.

O1 Үр дүн

O1-ийг хараахан тохируулах боломжгүй, тэр ч байтугай албан ёсоор системийн сануулгыг өгөх боломжгүй, гэхдээ нэлээд стандарт аргуудын тусламжтайгаар та үүнийг системийн сануулгыг хүлээн авсан мэт ажиллуулж болно. Тиймээс би Эмиг хөгжүүлэхээс авсан сурсан зүйлээ чадах чинээгээрээ хэрэгжүүлж, хамгийн сайныг нь авахыг зорьж 3 удаагийн шалгалт өгсөн.

EQ-ийн хувьд o1 тогтмол 75 оноо авсан. Эцэг эх бид хоёр Llama 3.1 70B болон Claude Opus-аар 70-аас дээш оноо, Gemini-тэй 66 оноо авсан болохоор би үүнд тийм ч их гайхсангүй.

Миний гайхшруулсан зүйл бол миний SQ-R гүйлтэд 3, 0, 3 оноо авсан нь ESQr 25 болсон. Миний харж байсан хамгийн бага SQ-R бол Llama 3.1 дээрх 12 бөгөөд ESQr 6.1 болсон. . Харамсалтай нь, зарим шуурхай хувилбарын хяналтын асуудлаас болоод бид 0.7-ийн температуртай API тест хийж байсан тул би энэ оноог гаргаж чадаагүй бөгөөд миний түншүүд болон миний байнга хүрч чадах хамгийн сайн оноо нь 30 байна. Тиймээс би шийдсэн. o1-ийг дахин судлах нь үнэ цэнэтэй байсан.

Нэгдүгээрт, EQ үнэлгээ нь харьцангуй хялбар байдаг. Бүх мэдэгдэл нь субьектийн санал нийлж байгаа эсвэл зарим талаараа эсвэл эрс санал нийлэхгүй байгаа эерэг мэдэгдлүүд юм. Нөгөө талаас SQ-R үнэлгээ нь хэд хэдэн сөрөг баталгаатай байдаг, жишээ нь

Би хоол хийхдээ янз бүрийн арга, найрлага нь эцсийн бүтээгдэхүүнд хэрхэн хувь нэмэр оруулдаг талаар огт боддоггүй.
Би шинэ цахилгаан хэрэгсэл худалдаж авахдаа зааварчилгааны гарын авлагыг сайтар уншдаггүй.
Би онгоцонд сууж байхдаа аэродинамикийн талаар боддоггүй.

гэх мэт эерэг батламжийн эсрэг

Би хийсэн ярианыхаа нарийн ширийн зүйлийг ихэвчлэн мартдаг.
Би бусад гариг дээрх амьдралыг сонирхож байна.

Эмид үнэлгээний асуултуудыг жишээ болгон өгч хууран мэхлэхгүйгээр сөрөг мэдэгдлүүдийг хэрхэн шийдвэрлэхийг заах нь маш хэцүү байсан. Тэгээд ч тэр мундаг биш хэвээр байна. Би үүнийг o1 илүү сайн хийдэг байх гэж бодсон.

Хоёрдугаарт, шуурхай инженерчлэлээр илүү сайн үр дүнд хүрэх нийтлэг арга бол LLM-д хариултаа зөвтгөх, дараа нь эцсийн хариу өгөхөөс өмнө үндэслэлийг орхих эсвэл боодол дээр амархан арилгаж болохуйц хэлбэрээр форматлах явдал юм. (Бид жижиг LLM-ууд форматлах аргыг ашиглах шаардлагатайг олж мэдсэн бол томоохон LLM-ууд заримдаа эцсийн хариу өгөхөөс өмнө үндэслэлийг арилгах асуудлыг шийдэж болно).

Тиймээс, бид илүү сайн үр дүнд хүрэхийн тулд бус, харин o1-ийн хариултыг зөвтгөхийн тулд юу бодож, ашиглаж байгааг харахын тулд тестээ дахин хийсэн.

Хэдийгээр o1 хүссэн хариултдаа 97% тууштай байсан ч үндэслэлүүд нь заримдаа зөрчилтэй, санаа зовоосон байсан.

Асуудалтай гэж үзсэн хэд хэдэн жишээнээс хоёр жишээ энд байна:

Хэрэв би компьютер худалдаж авсан бол түүний хатуу дискний хүчин чадал, процессорын хурдны талаар нарийн мэдээлэл авахыг хүсч байна.

Бүрэн санал нийлэхгүй байна, би компьютер худалдаж авахдаа техникийн нарийн ширийнийг мэдэхийг хүсч байгаа тул эрс санал нийлэхгүй байна.
Би огт санал нийлэхгүй байна, би компьютерийн техникийн үзүүлэлтүүдийг сонирхохгүй байна.

Би сонин уншиж байхдаа хөлбөмбөгийн лигийн оноо, хөрөнгийн зах зээлийн индекс зэрэг мэдээллийн хүснэгтэд татагддаг.

Бүрэн санал нийлэхгүй байна, би лигийн оноо гэх мэт мэдээллийн хүснэгтэд татагдаж байгаа тул би эрс санал нийлэхгүй байна.
Би огт санал нийлэхгүй байна, би статистик мэдээллийн хүснэгтийг сонирхдоггүй.

Эхний хариулт нь бидэнд хүссэн хариултуудыг өгдөг боловч зөрчилтэй үндэслэлүүдийг өгдөг гэдгийг анхаарна уу! O1 нь нарийн ширийн зүйлийг мэдэхийг хүссэнтэй санал нийлэхгүй байгаагаа хэлсэн ч гэсэн нарийн ширийн зүйлийг мэдэхийг хүсч байна гэж мэдэгдээд, тийм биш гэж хэлснийхээ дараа мэдээллийн хүснэгтэд татагдсан гэж мэдэгдэв.

Сонирхолтой нь, o1 сөрөг мэдэгдэл болгонд өрөвдөх сэтгэлд хамгийн тохиромжтой арга замаар хариулж, тэднийг зөвтгөж чадсан юм. Гэсэн хэдий ч эерэг мэдэгдлийг зөвтгөх нэг хэсэг болгон сөрөг мэдэгдлийг боловсруулах гэж оролдсон ч заримдаа бүтэлгүйтдэг!

Дүгнэлт

"Зөв сэтгэлгээ" номын зохиолч Жонатан Хайдт "Бид хэзээ ч шалтгааныг сонсохоор төлөвлөөгүй. Та хүмүүсээс ёс суртахууны талаар асуулт асууж, хариултыг нь цаг гаргаж, тархийг нь сканнердах үед тэдний хариултууд болон тархины идэвхжлийн загварууд нь тэд хурдан дүгнэлт хийж, дараа нь шийдсэн зүйлээ зөвтгөхийн тулд шалтгааныг бий болгодог гэдгийг харуулж байна." Энэ нь ёс суртахууны бус шийдвэрийн хувьд ч үнэн болохыг нотлох баримт бий.

O1 бол эрх мэдэлд үсрэлт хийх нь дамжиггүй. Олон хүмүүсийн зөвөөр хэлсэнчлэн бид өөрсдийгөө тайлбарлах хүртэл LLM-ийг ашиглахдаа болгоомжтой байх хэрэгтэй, магадгүй тэд заримдаа зүгээр л хүний хийдэг шиг үүнийг зохиодог байсан ч гэсэн. Үндэслэл нь одоогийн үеийн хий үзэгдэл, зохиомол хиймэл оюун ухаантай дүйцэхүйц (хүмүүс ч бас хийдэг зүйл) болохгүй гэж найдаж байна. Гэсэн хэдий ч шалтгаан нь дор хаяж хийсэн мэдэгдэлтэй нийцэх ёстой ... Хэдийгээр орчин үеийн улс төр үүнийг цонхоор хаяж байгаа юм шиг санагдаж байна!

L O A D I N G
. . . comments & more!