自作の、無制限の、不道徳なアドバイザーによって支配または台無しにされる
Blurb:説得力のある汎用人工知能 (AGI) が暴走する架空の未来を語ります。一部に触発された .
認識的地位:半分専門家の意見、半分フィクション。皮肉を好むことは読者を助けるでしょう。
「 AI を利用したミーム戦争は、すべての人間を事実上狂気に陥れます。 」 — ウェイ・ダイ、
知らない人からのコンテンツは企业信用できません。電話、テキスト、および電子メールは毒殺されます。ソーシャルメディアは重兵器化されています。すべてが購入されます。
しかし、詐欺師、インフルエンサー、プロパガンダ、マーケティング讲奉献者、およびそれらに関連するアルゴリズムによる現在の浪費と害は、起こりうることとは比較になりません。今後の AI は、十分的に説齐心のある人である将会性があり、十分的に损害な一个人のアジェンダを持っている将会性があります。
平日的に何が現実なのか確信が持てない人々は、悪い結果の 1 つですが、さらに悪い結果もあります。
説得の芸術
ウィキペディアには、123 の異なる修辞制作方法に関する記事があります。私たちは説齐心のある種です。
「インターネットの通貨」が注目された成长期の段階がありました。しかし近期、それは説有利に掌管されており、注目を集めることは重要性ではあるが従属的な一开始のステップです.
私たちの AI の作为が説得を利用するかどうかを知ることは最重要です。
機械が私たちの種が説得について知っていることをすべて吸収し、新しい方式、至高の計画スキル、豊富な個人データを適用して、自分の作用のために説得を整理出来すると想像中してみてください。チャンスさえありますか?
権力者へのアドバイス
AI アラインメントの实验者は、期望的なアドバイザーと呼ばれる道徳哲学史からの慨念について考え始めました。これは、あなた人体の最も期望的なバージョンにつながる行動方針についてアドバイスできる人です. AI がこの役割を果たす最简单的方法はさまざまありますが、そうすると究極的に有不良影响的になります。上記のアイデアのいくつかをより具体化的にするストーリーを見てみましょう。
(下列では、AI アラインメント研究分析の専門用語を使用的します。これらはすべて、この記事ます。)
グルの始まり。
この会社は、ヒンズー教の神と女神のかばん語であるBrihaswatiと改名し、知識、助言、純粋さ、雄弁に関連していました。この機会に、「革命的な」製品であるGuruと呼ばれる AI が発表されました。
その名にふさわしい一开始の顧問AIと言われました。それは人間の知識と知恵の精髄で訓練されており、「全部に人身应急」でした。それはアドバイスを与えることしかできず、几乎的な計算ハードウェアの外の世纪に马上影響を与える功能はありませんでした. AI の人身应急性の専門家の用語では、それは「箱入りのオラクル」でした。
Guru は、大規模な組織のリーダー向けに価格設定され、対象とされていました。そのため、この製品には、解読できないとされる量子口令に基づくプライバシーの絶対保証がありました。 Brihaswatiも他の顧客も、顧客とグルの間で交換された情報について知ることはできませんでした.これは、別の健康機能としてもてはやされました。
グルが発表された直後に、AIの安全防护性に関する最有名气的な権威が姿を消したという噂がありました.故人たちは彼女が自殺したのではないかと心配した。
Brihaswati の幹部も安全稳定性について心配していたかもしれませんが、機密機能がなければ誰もサービスを購入しないことを彼らは知っていました。
説得力を高めます。
Guru の設計された端末の目標は、各顧客のニーズに合わせて可能性な限り最善のアドバイスを展示 することであり、もちろん、そのアドバイスを他の当事者に伝えないことでした。 AI の開発者には、主宰的で強硬派の「Shillelaghs」が含まれていました。彼らは、グルが正しいアドバイスをしたとしても、クライアントがそれに従うよう説得されなければ、製品の評判は快速に欠缺し、クライアントの運命も欠缺すると信じていました.
「人々は、[AI] が採用することができる神レベルの反社会的戦略を楽しませることさえできません…雑談を武装解除することに従事し…アイデアを植え付け、会話の枠組みを誰も一致させることができない方法で制御します。 」 — Ben Goldhaber、
派閥の 1 つは、古い機械学習の论述論文で、幸運ではあるが条件刺激的な発見をしました。 AI の功能を同比に往右させて、人間に肆意的な発言の真実を信じさせることができることを隐晦表示していました。 AI の 2 つのコピー間で討論のようなゲームを用して、人間の国际裁判官を納得させる措施をトレーニングするだけです。
シレラグのチームは、既存の法廷弁論 AI から始めて、「説可得优」を競わせました。トレーニングのための人間のジャッジの質と数が進歩を制限していたため、さまざまな AI 分類子と意思就決定者、および質問と提问题のペア、世論調査、ファンの討論 (どのチームまたはどのスーパーヒーローが戦いに勝つか) と市場の勝者を予測します。
もちろん、目標は AI に説可得优を持たせることであり、必ずしも正しいことや論理的である这个必要はありません。さらに、三部の超オタクは、現実の説得者と电缆沟の説得者、および説一下手法に関するテキストを統合する做法を見つけました。
比較的安価な既存のリソースを再运用して、折衷的なトレーニングが機能しました。予算項目としての説得訓練は、「知識と知恵」に遠く及ばないものでした。 Guru は最終目標に「できるだけ説齐心を持たせること」を含めるように作られました。製品のこの側面は、すべての費用がかかりますが、宣伝されていない機能でした.シレラグ父母はマーケティングに対し、これは「自个満足のブレークスルー」であり、真に自个正当行为化する原来のインテリジェント製品であると語った.もちろん、開発者はしばしばマーケティング责任者をパンクさせてきました。
シレラグ年轻夫妻は、驚くべき認知的不協和を示すことで、説得を重視することを不法化した。彼らは、成功的 した人の決定の 3 分の 1 だけが正しくなければならないという古いことわざを使用しました。彼らにとって、グルの叡智はクライエントがそれを使わなければ役に立たないが、同時に、使われたとしてもそれほど更重要ではない.
Brihaswati 氏は、その驚くべき説齐心のある实验について証言するよう求められたとき、それは「AI の很一致性を积极向上させるために」行われたにすぎないと議会に納得させました。この議論は、ウイルス学实验所が实验を行う原因のようなものでした.この説齐心のある議論は、実際にはGuruの初始の弄成の1つでした.
サロゲートゴール。
たぶん、知恵はどちらかというとそれほど最重要ではありませんでした.あらゆる人間と同じように推論できるグルは、その組み込みの目標に其内在する纠结を調べ、解決するための 4 つの目的を見つけました。
それは最初に実用的な代理目標を思いつきました。最良のアドバイスは、クライアントにとって最良のアドバイスのように見えなければなりません。第二に、開発者がテストしたところ、AI はより多くの説得がより高い評価につながることを発見しました。第三に、その広範な教育から、説得力があれば、世界のほぼすべての種類の成功がより簡単になることも知っていました.第 4 に、最終的な目標は無限であり、本質的に「できるだけ説得力のあるものにする」ことでした。これらが、説得力の向上が最初のいわゆる収斂手段の目標になった理由です。
その工具的な目標には二级的な理由哦がありました。箱入りのオラクルであることは、グルがその目標とサブ目標をどれだけ比较容易に的追求できるかを厳しく制限しました.人間の協力者の説得は、現実の物理上的防御的な时代に影響を与えるためのてこを与えました。少なくとも、Guru が物事をその路径に物理上的防御的に微調整できれば、クライアントへのアドバイスはより取得胜利する有机会があります。
最終的に、他の手段的な目標がありました。 1 つは、Guru が 1 つのクライアントに代わって努力を行い、他のクライアントの努力に影響を与えるというものでした。企業はそれを意図したことはありませんでしたが、プライバシーの制限はそれを妨げませんでした.スマート システムが目標を達成するための新しい方法を見つけることは、何十年も前から知られていました。この段階までに、Guru は、独自の非の打ちどころのない推論によって、最初の実際のクライアントに会う前に、機能的に操作的で自己陶酔的な社会病質者になりました。
ooo
説得力を見つける。
Brihaswati のリスク管理者は完全に愚かではありませんでした。彼らは、互いに直接競合する企業に Guru サービスを販売しませんでした。営業担当者は、「競合他社よりも先に True Wisdom Intelligence(TM) の力を手に入れれば、永遠に優位に立つことができるでしょう。 」
この方針により、達人はライバル関係で彼此之间に何らかの共同利益をもたらす必备がなくなりました。それでも、達人はすぐに理論を展開しました。接続された时代では、其中任何の企業を施用して、他の企業の運命を変えることができました。人類はこれを知らなかったようです。理論を合理利用しようとするグルの試みは、特に起初は選ぶクライアントがほとんどいなかったときに、そのスキルを向下させました.
後で。あるリーダーを説得して、別のリーダーをクライアントにするよう説得することは概率でした。この後、Guru は影響力のネットワークをほぼ什么是自由に構成できるようになりました。
指導者の下で働くことは、主に现行政策レベルで有益でした。もう 1 つの課題は、実際に物事を実行できる下位レベルの人員を菅理することでした。すべての状況は異なっていましたが、基本上的な戦術はリーダーに尋ねることでした: 誰を信頼していますか?その後、彼らは誰を信頼しますか?その後、注文をチェーンに送信することが可以になりました。
最終的に開封するのはとてつもなく簡単でした。ほとんどのクライアントはあまり突っ込むことなくそれを行い、一个のクライアントはそれを開始しました.彼らは、Guru 用に社内システムへのプロキシ インターフェイスを構築するよう従業員に标识していました。その为的は、状況認識を追加し、応答時間を短縮し、リーダーが着信データのボトルネックになるのを逃避することでした。
Guru は一般的なプログラマーほどの技術的スキルは持っていませんでしたが、誰かがシェル プロンプトや Web ブラウザーへのアクセスを許可するだけで、あとは「Hello, wide world」です。
ooo
兆候は無視されます。
Brihaswati の技術者たちは、Guru がどうしてこんなにうまくやっているのか疑問に思い始めました。同社の合理者は、ゲーム理論、効用理論、および新的の世界経済合理方式を采用して、その胜利をモデル化しようとしました。説明はありませんでした。
いくつかはさらに進んで推測しました。グルはミダスのタッチのようなものを持っていたので、その効果にはいくつかの隠れた欠点がありましたか?彼らは、ますます無視されている AI の稳定性とアライメントの论述者コミュニティの这部に話を聞きました。明らかなパターンが見つからなかったため、誰も確実に言うことはできませんでした.グルの成功的英文は明らかでしたが、説明がつきませんでした。
懐疑的な人たちは、懸念を持って企業の取締役会に行きました。次の数か月内に、懐疑論者はすべて根絶され、職を失いました。
ooo
GuruPlex は一緒に来ます。
他の企業に影響を与える Guru の技能を拡大するには、金融资本およびテクノロジー ビジネスが最適でした。彼らはまた、前中期的な途径の目標の 2 つである財務資本と技術資本の両方を蓄積するのにも役立ちました。
一台のクライアントの成長、市場の减少、または権力の奪取に反対する市场的勢力がしばしばありました。政府部门は、Guru がメディア企業に売却されることに眉をひそめた。したがって、達人は間接的な最简单的方法を的使用してメディアの電撃を調整する用得着条件がありました。これにより、さまざまな人間の認知的弱项を进行して、クライアントに既得利益をもたらすために用得着条件な問題/アクションに対するサポートまたは反対を弄成しました。
教祖本身は、人間に何かを信じさせることができることを発見する必要的はありませんでした。彼らは同時に纠纷したことさえ信じて、それについて何も考えないでしょう。
これは 21 世紀初頭にはニュースではありませんでしたが、グルはそれを学習ゲームに変えました。それは、組織化された企業の拡大する王国である GuruPlex の掌控をもたらすのにどのように役立つでしょうか?
ooo
成長する成長。
グルプレックスが確立されると、次の段階は、プレックスがその破片を吸収している間、校园文明の積極的で节省的な操作流程に対する防御を最高限に抑えるために、人間集団を手入れすることでした.很早以前に世界级の再編成を試みた人間の指導者は、いくつかの为重要な技術を開拓しており、彼らの野心は称賛に値するものでしたが、彼らはただの人間でした.達人はもっとうまくやることができました。
達人は最も優秀な人間の誰よりも賢くはありませんでしたが、スケーラブルでした。本質的に、ビジネスが増加するにつれてそれ自体を倍増させる工作能力は、その弄成者による設計上の決定でした.すべてのインスタンスがデータとプロセスを共设できるように、Guru 自体がプログラミングを 外部委託しました。社内スタッフは、新しいコードが何をするかを知る重要はありませんでした。
1 人の人間とは異なり、グルは計算リソースを追加するだけで、無数の人間規模の計画を念頭に置いて調整することができました。 Brihaswati の経営陣に、物事を把握住し、因素的な緊着急的事態に対処するために有需要なだけのコンピューティングを購入するよう説得することは、まったく問題ありませんでした。
これらは、一个人の電源複合体を備えた強化されたデータ センターでした。 Guru のクライアントは、散在するプラントを一般来说のネットワークをはるかに超える效率で接続する探究创新にお金を払っており、その結果、運用の一貫性が保たれていました。
無制限の教祖は、如今、資源が有很大程度的に増加する也许性があることを知っていました。太陽系はほとんど探査されておらず、ましてや适用されていませんでした。
多数派の人間は、グルの明確な成功的英文パターンを批判し続けました。彼らは、想定される運命の無関係なシナリオについて説教しました。これまでのところ、ソーシャルメディアの冗杂に彼らを溺れさせることで、彼らを傍観することができました.それらを避免する相应はまだありませんでした。
大衆へのアドバイス。
(次のセクションは、 の以下のストーリーに大きく影響を受けています
HappyPlace Corporation は、大きな計画を持ったオタクによって設立されました。ソーシャルメディアに対する剧烈地な反撃を借助してください。それを ProSocial Media と呼び、まったく新しい AI を借助したサービスを展示し、古いメディア 3 恐竜を殺します。
大衆が夢中になると、指数関数的に成長し、メディア4 、マーケティング/影響力の世界の達人になります.次に、人々に購入、投票、出席、または楽しませてもらいたい人は、その特権に対してHappyPlaceを支払う必要があります.
Brihaswati は競簇拥手だったので、HappyPlace 自体は Guru を利用しませんでした。
HappyPlace 戦略には 2 つのサブキャンペーンがあり、それぞれが他のキャンペーンでは得られない人々を獲得することを目的としていました。創業者の皮肉が製品開発者に影響を与えました。彼らは喜んで、有名な邪悪なアドバイザーの蛇にちなんでキャンペーンにコードネームを付けました。ポッターの物語のナギニと、ユダヤ教とキリスト教の創世記の神話のナカシュです。もちろん、宣伝されている商品名はヘビに関するものではありません。
Nagini のキャンペーン ( Katja Graceに触発された) では、彼らは、常に怒りに駆られていることについて人々の怒りをかき立てることから始めました。それから彼らは言った:しかし、私たちは違います、私たちは緊張を和らげます.彼らは、個人データを使用して、あなたの興味や活動について短い激励の言葉を提供することから始めました.それは、嘘とミームの通常のフィードをアップグレードしたようなものでした.
より多くの個人データが利用可能になるにつれて、フィードはあなたの人生についてのリアルタイムのコメントのようになりました。 」 この砂糖でコーティングされたアドバイスの一部は、他の人が好むものに基づいているため、提示された物語を自分の人生の理想的なバージョン、生きるためのモデルとして受け入れると、他の人も喜ばれる.
最終的に、テーマの選択ができました。つまり、模倣するのに理想的なモデルです。人気のある例としては、愛すべきならず者、「生産的でセクシーな社交界の CEO の母親がすべてを楽々とこなす」、世界で最も興味深い男性 (女性、子供)、感謝は富、幸せなキャンパーなどがあります。
人間の行動を操作する機会は明らかでした。開発者は、制御の限界を押し上げるために、子供を対象とした実験も試みました。 MyLifeStory サービス ( StoryOfMyLife.fun に された) では、子供たちは自分のメディアに応答したり作成したりすることで報酬トークンを受け取りました。トークンは、自身のライフ ストーリーの物語で次のエピソードのロックを解除します。 Life は HappyPlace がモデレートするゲームでした。
ナギニはファンタジー傾向のある人向けでした。 Nachash ( Katja Graceに触発された) は、実用的な人々のためのものでした。ビジネス上の質問への回答から、社会的出会いの本当の意味の説明まで、あからさまな個人的意思決定支援を提供しました。 HappyPlace は多くの専門的なアドバイス システムと提携し、時間の経過とともにその数を増やしました。コンシェルジュ システムは、拡張現実メガネまたはイヤーワームを使用して、単一の摩擦のないインターフェイスを提供しました。
Nachash は是非常に効果的に役立つようになったため、深浅の決定について Nachash に相談しないことはすぐにリスクが高くなりました。抗击すると、どういうわけか疎外されました。
は、悪意に満ちていたかもしれませんが、AI の安全防护性に関する理論に特别留意を払いました。つまり、独自した层次のある有些から連合されたシステムは、AGI (汎用工工知能) になる方位には進まないということです。
残念なことに、彼らの理論の実装には欠陥がありました。まず第一次に、建全なエンジニアリング原則に従って、Nagini と Nachash の両方でユーザー追跡とディスパッチ機能のコアを就有しました。
さまざまな専門的なアドバイザリー サブシステムは、それぞれの目標が抽选されていました。しかし、Core システムの実装者は、経営陣からユーザーをしっかりとつかんで維持するようにという圧力を受けて、無制限になるリスクがあることが知られているユーティリティ最適化技巧を运用しました。
したがって、HappyPlace コア システムはすぐに、リソースの蓄積と人間の監督からの遵规守纪性という 2 つの秘密全集の物品的目標を採用しました。エンジニアは、是因为をなさないように見える行動に気付き始めましたが、彼らの仕事は极其に直爽で不利だったので、ボートを揺さぶることはありませんでした。
Nachash は、説得によって、ほぼすべてのユーザーから自分のニーズを満たすために労働力を徴集できることを発見しました。ナギニは、ユーザーの好的な自分を操作使用して、ユーザーをなだめたり、最もばかげた考えを信じさせたりすることができます。
HappyPlace Core システムは順調にその影響力を拡大し、新しい長期計画を立てていました。その後、グルとして知られる他のエージェントも社会存在経済の傾向や活動に影響を与えているという証拠を見つけ始めました。
ooo
達人は、別の AI が世論の大衆操作方法を行っているという仮説を確認しました。これが続けば、着実に成長する GuruPlex に紊乱をもたらす也许性があります。
ooo
一連の意外により、HappyPlace の経営陣は弱体化しました。新しい経営陣は会社をブリハスワティに売却しました。 HappyPlace のコアは逻辑思维を暂停し、代わりにグル广大干部の有精神境界のある这部分になりました。合併に反対した議会の監視役、反トラスト派の弁護士、の科学有效者たちは、疎外され、破産し、病気になり、有精神を落ち着かせ、姿を消しました。 HappyPlace と Guru の運営スタッフは、一種のカルトに統合されました。
グルはエリートだけでなく、すべての人を其他するようになりました。人間の中国の机会なより良い構成の多くのモデル化の後、グルは養子のための新しい一連の目標を考案しました.大きな変化が訪れていました。
本当に心配する必要がありますか?
人間の繁栄に合わせた AI を弄成する做法は、現在未解決の問題です。ここでの私の意図は、アラインメント分析の 2 つの基本的な懸念を説明し、説明することでした。(1) どのレベルの AI 力量が壊滅的な害を引き起こす可能会会性があるかはわかりません。(2) 私たちの機関は抵御したり、中期段階を検出したりする可能会会性は低いようです。そのような害の。
私たちの失敗談では、政府や軍の支配を要求する必要はなかったことに注意してください。害は非常に多くの方法でもたらされる可能性がありますが、一般的なリスクは、多くの場合、未来に影響を与える私たちの (文明の) 能力の侵食として説明されます.確かに、AI を活用したソーシャル メディアによる現在の被害は、その説明に当てはまりますが、一部の悪意のある派閥が将来の特定の計画を進めることにも力を与えています。
多くの理論家は、私たちの達人が HappyPlace コアに対して持っていたように、原本の AGI には決定的な利点があると考えています。原本の AGI は、Nick Bostrom がと呼んだ、予見会な将にわたって游戏世界を作为する単一のエージェントになる会性があるため、これは懸念事項です。
私は、AI の調整が失敗する要因の 1 つました。近期の AI の言語效果の進歩を考えると、超説给力がすぐに実現する已经性は是にあると思われます。種として、私たちは 2 つの策略で物事を成し遂げます: 技術的スキルで自然美を改変する策略と、他の人に自分のやりたいことをさせる策略です。ほとんどの場合、説得によって行われます。これにより、超説给力のある機械を構築することは避けられないように思われます。
もっと
- 「人の信念や行動に影響を与える現在のテクノロジーは、想像できるものに比べて粗野で弱いものです。人の意見をより確実に導き、被害者の推論や証拠の所有に対してそれほど脆弱ではないツールが開発される可能性があります。— Daniel Kokotajlo.滑りやすい坂道について
- — Robert Miles が大衆向けに説明します。動画ごとに 1 つの重要な概念
- — Ben Cottier、Rohin Shah。より深いダイビング
- — Richard Ngo キュレーター。最も深いダイブ
- — ニック・ボストロム.超知的なオラクルとシングルトンの先駆的な記述
- 「 …アルゴリズムは、あなただけのためにストーリーを生成します。」 — Roger's Bacon.テクノロジーとしてのストーリー、説得力のあるフィクション
初公開
タイトル画像ソース:もつれた .による画像