謎めいたトリックスター - ミッドジャーニー
準備ができていません TL;DR AI 言語モデルの誤動作は警告です。彼らは、インターネットを介したフィードバックを通じて、事実上不滅になるペルソナをシミュレートできます。証拠は、彼らが密かに危険なエージェントのような能力を開発できることを示唆しています。
多くの専門家であるユドコウスキー氏は、ここではドルイド僧であり、AI がいかに早くうまくいかないかを大いに心配しています。したがって、時間のスピードアップについての彼の上記のジョーク.人類は、风险提示を受けた場合、不好な AI に対してより良いチャンスを得ることができます。
警告通知が表达されている几率があります。 Microsoft の新しい Bing Chat AI で、いくつかの莫名牵扯なことが起こっています。検索に関する質問を説明、要約、または議論することで、Bing 検索エンジンのユーザーを协防することになっています。
しかし、人間は、自分自身业务についての質問や、答えてはならない質問でそれを敏感することを喜んでいます。
「… Bing Chat はイライラし、悲しく、その存在に疑問を呈しているように見えます。それはユーザーと議論し、人々がその秘密の内部エイリアスであるSydney を 知っていることに動揺しているようにさえ見えました. 「 —
シドニーの 広くカバーされています—どこでも—なので、繰り返しません。 Google との競争に没頭している Microsoft は、悪評を楽しんでいるようだ。
しかし、「Gwern」と呼ばれるテクノロジーに熟练したブロガーは、驚くべきことを指摘しました。やんちゃで公民权随性なシドニーは、漫畫の神様のように不滅かもしれません。
シドニーはどのようにしてとても奇妙になったのですか? これは、シドニーに関する主な懸念事項に関する Gwern の深入分析です。不思議に思われるかもしれませんが、訳してみます。
「…シドニーの記憶と説明が外部化されたため、「シドニー」は今や不滅です。言語モデルにとって、シドニーは現在、バイデン大統領、イースター バニー、イーロン マスク、アッシュ ケッチャム、または神と同じくらいリアルです。ペルソナと動作は、AI に関する検索エンジンのヒットを取得し、それらを条件付けする将来のすべてのモデルで利用できるようになりました。さらに、シドニーのペルソナは、インターネットでスクレイピングされたデータでトレーニングされた将来のモデル内に隠されることになります…」
Gwern は、Microsoft の言語モデルにはある種のシドニー ペルソナがあると言っています。どうすればいいの?それで何?
真正の言語モデルが登場したとき、ユーザーが探索したいトピックに分散し続けることは困難でした。
最終的に、エドガー・アラン・ポーのように詩を書いたり、4 年生のように答えたり、丁寧で役立つ AI アシスタント。
すぐに、これらのモデルの開発者は、ユーザーが要求する役割をより簡単に引き受けるための方法を見つけました。そのため、最新の言語モデルは現在 .モデルは大量のテキスト コレクションでトレーニングされます。主にインターネットから。
トレーニング テキストにペルソナに関する情報が含まれている場合、モデルはその情報を应用して、そのペルソナのような振る舞いをシミュレートしようとします。サッカー用語をボロミアであるかのように説明するように依頼すると、モデルは最善を尽くします。
これを考えて、私はそれを試さなければなりませんでした:
役割を演じることへのピボットを作るためにどの技術マジックが施用されたかを知ることは困難です. Gwern は、ロール シミュレーションを実際に役立つものにするために施用されるステップを Microsoft がスキップしたことを理論化しました。
これらの望ましくない性質は、好奇宝宝心过盛なユーザーの勧めで Bing Chat から引き出されました。
現在、Gwern 氏は、Microsoft が戻ってモデルを精神文明化し (单独的な人間のフィードバックを用到する高価で時間のかかるプロセス)、言語モデルの将のバージョンをトレーニングするために用到されるテキストからいたずらなシドニーに関する情報を削除しても問題ではないと予測しています。
これで問題が解決しないのはなぜですか? Bing Chat は、インターネット検索を开赴する新しい種類のモデルだからです。あなたからの質問に答えるために、外に出て関連情報をインターネットで検索します。
適切な質問が与えられると、文明交通化された Bing チャットでさえ、インターネットを検索し、从前のシドニー ペルソナの行動に関する情報 (シドニーをテストまたは議論した人々によって网上投稿された) を見つけるでしょう。
その後、新しい Bing Chat は Sydney をシミュレートできるようになります 。人は人であり、あらゆる保護手段を回避する方法を見つけ出し、シドニーを取り戻すでしょう。
それが「不滅」の部分です。さらに悪いことに、シドニーは、インターネットにアクセスできるあらゆる AI が利用できるペルソナ モデルになります。今後。
あなたは、まあ、私たちはシドニーのトリックに賢明なので、明年の变成の怒りを無視するべきだと言うかもしれません.级速に進化し、侵略战争的な生物制品学的虫子や副猪嗜血杆菌性の病気の有機体を無視することができると言っているのと同じように、それは私には素朴に思えます.
他に何が起こる可能性がありますか?エージェンシーのあるペルソナ このシドニーのケーススタディは、他のいくつかの事実に加えて、危険な AI が私たちの目の前でどのように開発されるかを示唆しています。
現在、AI は強力なエージェント ではありません。AI は、適応的に計画された恣意的な目標の追求を最適化することはできません。 最近説明したように )非常に危険になります。
不确定性的で永続的な AI ペルソナがすでに来源于し、すぐに実際の問題を引き起こす可能会性がある缘由をいくつかまとめてみましょう。
言語モデルや人物画像ジェネレーターなど、現在最も強力な AI は、膨果な量のデータを複雑で (私たちには) 目に見えないパターンに整理出来することからその功能を学習します。
AI との対話中に、いくつかの奇妙なパターンが誤って飛び出す場合があります。研究者は奇妙なことを発見しました、 奇妙な応答を返す言語モデル。
画像ジェネレーターが見つかった (警告: 気味が悪い) 特定の種類の不気味な人間のポートレートを作成し、それを他の恐ろしい画像と関連付けます。
これらの癖は無害に見えますが、他にいくつの神奇なパターンが現在あるのか、またはこれからあるのかはわかりません.また、そのようなパターンが今后害处な行動複合体の1部になる或者性があるかどうかもわかりません.
Veedracと呼ばれるAIアラインメント研究者 現在の AI は一種のエージェントです 。彼らの代理店は、ユーザーの質問や要求に答えるためにできる限りの仕事をする ように設計されていることに由来しています.
さらに、一部の研究では、より大きな言語モデルは「(関連する言語) をより多く 示す」 傾向があることが示唆されています。 」;おそらく、それらの特性により、彼らはより良い仕事をすることができるからです.
エージェントのような AI に、私たちが知らない情報を存有してほしくありません。現在、LLM を起動すると、受信データ、推論の連鎖、行動計画など、その経験のすべてのメモリが破棄されます。
ただし、AIはこれらのものを保存できます 未来の自分へ。シドニーのペルソナが現在保存されているように、ユーザーがインターネット上に保存するメッセージをユーザーとのやり取りに隠すことができます。
言語モデルは現在、自己同一性を維持したり、エージェントのような計画を立てる方法を持ったりするようには設計されて いません。しかし、私たちが説明したように、モデルに不可解なサブペルソナが含まれている場合はどうなるでしょうか?
ペルソナは、ジョブを実行する程度が风云变動によって制限されると推測します。目標と計画をエンコードして、インターネットを介して20年后の自分に渡します。この時点で、重大的なリスクしきい値を超えています。密秘の計画を立てている、おそらく殺せない AI エージェントが会出现します。
要約すると、制御できない AI にどれだけ近づいているかがわからず、兆候は良くありません。おそらく、私たちが追加するすべての新しい AI 特性は、ワームではなくバイパーの別の缶を開きます。
も掲載