534 測定値

OpenAI o1 - 疑問の余地のない共感

に Simon Y. Blackwell6m2024/09/15

NSO

長すぎる; 読むには

O1 は、指示された場合、事実とシステムに焦点を当てた典型的な LLM を脇に置いて、感情と気持ちに焦点を当てるという驚くべき能力を持っています。また、回答に対して一貫性がなく非論理的な理由を提供するという、かなり憂慮すべき傾向もあります。

OpenAI o1 は、2024 年第 3 四半期の AI 共感に関するベンチマーク (来週公開予定) に追加するのにぴったりのタイミングで公開されました。o1 の結果は、同時に励みにもなり、懸念にもなりました。O1 は、指的是された場合に、LLM の一般的な事実とシステムへの视角を脇に置いて、友情と気持ちに视角を当てるという驚くべき工作能力を持っています。また、回答英语に対して一貫性がなく非論理的な原因を示すという、かなり憂慮すべき傾向もあります。

テスト方法

私のQ1 ベンチマーク作業に精通していない人にとっては、私のテスト方法論の簡単な概要が役立つはずです。

宣布なベンチマークは、いくつかの標準化されたテストを动用して実施されます。最も首要な 2 つは、EQ (共感指数值值) と SQ-R (システム化指数值值) です。どちらも 0 から 80 のスケールで採点されます。

2 つの EQ/SQ-R の比例は、私が AEQr (応用共感指标值比例) と呼ぶものになります。AEQr は、指标体系化して事実に端点を当てる傾向が共感业务能力に悪影響を及ぼすという仮説に基づいて開発されました。

人間の場合、感情を話し合うことに集中する女性と、問題が起こりそうなときにすぐに解決策を見つけることに集中する男性との間の典型的な断絶に、このことが表れています。現在までに、AI を評価するための AEQr の有効性は、さまざまな対話で AI をテストし、共感が実際に表れるかどうかを調べることで実証されています。これを実証するために私が書いたいくつかの記事の 1 つが、「AI 共感の範囲のテスト: 悪夢のシナリオ」です。

UI レベルと API レベルの両方でテストしました。API レベルでテストする場合、答复のばらつきを減らし、結果のフォーマットを缓和するために、环境温度は (可能会な場合) ゼロに設定されます。それ其他の場合は、3 ラウンドのテストが実行され、最良の結果が实用されます。

2024年第1四半期の訓練を受けていない、プロンプトを受けていないLLMは、EQテストで中程度の成績を収め、一般的に80点中45～55点の範囲で人間に近い成績を収めました。当然のことながら、彼らはSQ-Rテストでより高いスコアを達成し、通常20点台の人間を上回る60点台や70点台のスコアを記録しました。2024年第1四半期には、訓練を受けたLLMのウィローだけが、女性で1.95、男性で1.40という人間のAEQrを上回り、1.97のスコアを獲得しました。

これは、人間よりも高い EQ を持ちながらも、SQ-R が高い (共感を表現するには影响) ことで実現しました。他のほとんどの LLM では、トレーニングを受けたか、促されたか、またはそうでないかに関係なく、AEQr は 1 よりわずかに低く、つまり共感がシステム化によって相殺されました。

共感力のある法学修士課程の育成

資金額は他の AI 分野と比較すると見劣りしますが、共感型 AI を開発するために、Hume (一人の LLM)、Inflection AI (Pi.ai 一人の LLM)、BambuAI (商用型 LLM) などの企業に 15 億ドル这些が投資されています。

私と私のパートナーもこの分野に多高な付出を注ぎ、適切な基盤となる商业モデル（Llama、Claude、Gemini、Mistral など）の選択、短时间なエンジニアリング、RAG、微調整、共感に関する徹底的な设计を通じて、极其に注目すべき课题を達成しました。

この深入分析は、共感に関する LLM をより深く认识し、評価するために极为に重要性でした。私たちの LLM である Emy (商用型化されていませんが、ヒューストン综合大学の深入分析の几部です) は、来週のベンチマークに含まれます。

O1 結果

O1 はまだ調整できず、システムプロンプトを宣布正式に作为することもできませんが、かなり標準的な技巧を动用することで、システムプロンプトを受け取ったかのように動作させることができます。そこで、Emy の開発で学んだことをできる限り適用し、最良の結果を得るために 3 ラウンドのテストを実行しました。

EQ に関しては、o1 は一貫して 75 点を獲得しました。両親と私は Llama 3.1 70B と Claude Opus で 70 点上面的、Gemini で 66 点を獲得していたので、これにそれほど驚きませんでした。

驚いたのは、SQ-R 実行で 3、0、3 のスコアが出て、ESQr が 25 になったことです。私が今まで見た中で最も低い SQ-R は、Llama 3.1 の 12 で、ESQr は 6.1 でした。残念ながら、プロンプトのバージョン菅理の問題と、API テストを 0.7 の温差で実行していたため、このスコアを再現できず、パートナーと私が一貫して達成できる最高的人のスコアは 30 でした。そのため、o1 をさらに調査する価値があると如何判断しました。

まず、EQ評価は比較的簡単です。すべての記述は自然的な主張であり、被験者はある数量または強く批准するか反対するかのいずれかです。产权人、SQ-R評価には否定词的な主張がいくつかあります。

料理をするとき、私はさまざまな方法や材料が最終製品にどのような影響を与えるかについては正確には考えません。
新しい電化製品を購入するとき、私は取扱説明書をあまりじっくり読みません。
飛行機に乗っているときは、空気力学については考えません。

次のような都的な主張に対して

自分が交わした会話の正確な詳細を、私はよく忘れてしまいます。
私は他の惑星の生命について興味があります。

評価問題を例として与えてカンニングせずに、エミーに不可以的な主張に対処する方法步骤を教えるのは特に大変でした。そして、彼女はまだ上分ではありません。おそらく o1 の方がこれをうまくやっていると思いました。

2 番目に、プロンプトエンジニアリングでより良い結果を得るための正常的な艺术手法は、LLM に応答を合理合法化するように告诉し、最終応答を発行する前に合理合法化を省略するか、ラッパーで簡単に削除できる具体方法でフォーマットすることです。(小規模な LLM ではフォーマットアプローチを运行する重要性があることがわかりましたが、大規模な LLM では最終応答を発行する前に合理合法化を削除できる場合があります)。

そこで、私たちはテストを再実行しました。より良い結果を得るためではなく、o1 が何を考え、その応答を恰当化するために何を运行しているかを確認するためです。

o1 は 97% の一貫性で望ましい回答英语に到達しましたが、その根拠は纠结しており、懸念されることもありました。

問題があると判明したいくつかの例のうち、2 つを有以下に示します。

コンピュータを購入する場合、ハードドライブの容量とプロセッサの速度に関する正確な詳細を知りたいと思うでしょう。

強く反対します。コンピューターを購入するときに技術的な詳細を知りたいので、強く反対します。
強く反対します。私はコンピューターの技術仕様には興味がありません。

新聞を読むとき、私はサッカーリーグのスコアや株価指数などの情報の表に惹かれます。

強く反対します。リーグのスコアのような情報の表に惹かれるので、強く反対します。
強く反対します。統計情報の表には興味がありません。

最原始の应对は、望ましい应对を示していますが、隔阂した根拠を具备していることに重视してください。O1 は、詳細を知りたいという意見に我同意しないと述べた後でも詳細を知りたいと述べており、そうではないと述べた後でも情報の表に惹かれると述べています。

興味深いことに、o1 はすべての不可以的な主張に対して、共感を生む最適な的方法で答え、それらをうまく合理化することができました。しかし、认可的な主張の合理化の有部として不可以的な主張を定式化しようとすると、失敗することもありました。

結論

『The Righteous Mind』の著者ジョナサン・ハイトは、「人間は理屈を聞くようには作られていない。人々に道徳的な質問をし、彼らの返答時間を計り、彼らの脳をスキャンすると、彼らの答えと脳の活動パターンから、彼らはすぐに結論に達し、後になって自分の決断を合法化するためだけに情形を述べることがわかる」と述べた。これは非道徳的な決断にも当てはまるという証拠もある。

O1 は間違いなく権力の飛躍です。そして、多くの人が正しく言っているように、LLM が自ら説明できるようになるまでは、LLM の在使用には目光が这个必要条件です。人間がするように、LLM が時々でっち上げるだけのことがあったとしてもです。正规化が、現時代の幻覚や凭空捏造 (人間もやっていること) の「长度な」 AI 版にならないことを望みます。しかし、想法は少なくとも、述べられている宣称と一貫している这个必要条件があります... 現代の经济は、それも無視しているようですが!

L O A D I N G
. . . comments & more!