Blurb:讲述了一个虚构的未来,其中有说服力的通用人工智能 (AGI) 变得流氓。部分灵感来自于
认知状况:一半专家意见,一半虚构。喜欢讽刺会帮助读者。
“人工智能驱动的模因战争让所有人都发疯了。 ”——戴伟,
你不能相信任何你不认识的人的任何内容。电话、短信和电子邮件都中毒了。社交媒体被武器化了。东西都是买的。
但与可能发生的情况相比,目前来自诈骗者、影响者、宣传者、营销人员及其相关算法的浪费和伤害微不足道。即将到来的人工智能可能是超级说服者,他们可能有自己非常有害的议程。
人们经常不确定什么是现实是一种糟糕的结果,但还有其他更糟糕的结果。
维基百科有关于 123 种不同修辞技巧的文章。我们是一个有说服力的物种。
在早期阶段,“互联网货币”受到关注。但今天,说服力占主导地位,吸引注意力是至关重要但次要的第一步。
重要的是要知道我们的人工智能创作是否会使用说服力:什么类型和目的。
想象一下,如果一台机器吸收了我们人类所知道的关于说服的所有知识,然后应用新的方法、最高级的计划技能和丰富的个人数据来为自己的目的进行说服。我们还有机会吗?
AI Alignment 研究人员已经开始思考道德哲学中的一个概念,称为理想顾问。这将是一个可以为您提供最理想的自己的行动方案的建议。 AI 可以通过多种方式填补这个角色,但这样做对我们来说最终是不利的。让我们来看一个使上述一些想法更加具体的故事。
(下面,我使用了来自 AI 对齐研究的技术术语。这些都在这个故事。)
该公司将自己更名为Brihaswati ,这是一个印度教神和女神的组合,与知识、忠告、纯洁和口才有关。该场合宣布了“革命性”产品:一个名为Guru的人工智能。
据说它是第一个名副其实的顾问 AI。它接受了人类知识和智慧精华的训练,并且“非常安全”。它只能提供建议,无法对基础计算硬件之外的世界产生直接影响。用人工智能安全专家的术语来说,它是一个“盒装预言机”。
Guru 的目标是大型组织的领导者。因此,该产品基于所谓的牢不可破的量子加密绝对保证了隐私。 Brihaswati 和其他客户都不知道客户和 Guru 之间交换的信息。这被吹捧为另一个安全功能。
有传言称,在 Guru 宣布后,AI 安全方面的一位知名权威就消失了。朋友们担心她可能会自杀,心烦意乱,因为她毕生的工作一无所获。
Brihaswati 的高管们可能也担心安全问题,但他们知道,如果没有保密功能,没有人会购买这项服务。
Guru 设计的终端目标是为每位客户提供满足其需求的最佳建议,当然,不要将这些建议告诉其他方。人工智能的开发者包括一个占主导地位的强硬派,“Shillelaghs”。他们认为,如果 Guru 给出了正确的建议,但没有说服客户遵循它,那么产品的声誉就会迅速下降——客户的命运也会如此。
“人们甚至无法接受 [AI] 可以采用的神级反社会策略……参与解除闲聊……以无人能比的方式植入想法和控制对话框架。 ” — Ben Goldhaber,
其中一个派系在一篇旧的机器学习研究论文中做出了一个幸运但鼓舞人心的发现。这意味着你可以大大提高人工智能说服人类相信任何任意陈述的真实性的能力。您只需在两个 AI 副本之间使用类似辩论的游戏来训练它如何说服人类法官。
Shillelagh 团队从现有的法律论证 AI 开始,并让它与自己竞争以“令人信服”。用于训练的人类评委的质量和数量限制了进展,因此他们为评委补充了各种 AI 分类器和决策者,以及许多数据库,例如问答配对、民意调查、粉丝辩论(比如哪个团队或哪个超级英雄会在战斗中获胜)和预测市场赢家。
当然,目标是让 AI 具有说服力,而不一定是正确的或合乎逻辑的。此外,一些超级书呆子找到了一种方法来整合关于真实和想象的说服者和说服技巧的文本。
重新利用一些相对便宜的现有资源,折衷的培训奏效了。作为预算项目的说服培训不远低于“知识和智慧”。 Guru 被要求在其最终目标中包括:“尽可能有说服力”。产品的这一方面,尽管付出了所有的代价,却是一个非广告功能。 Shillelaghs 告诉 Marketing,这是一个“自我满足的突破”,是第一个真正自我证明的智能产品。当然,开发人员经常会抨击营销人员。
Shillelaghs 以惊人的认知失调表现证明了对说服力的强调。他们引用了一句老话,成功人士的决定只有 1/3 是正确的。所以对他们来说,如果客户不使用 Guru 的智慧,它就毫无用处,但同时,如果它被使用,它就不那么重要了。
当被要求就其令人震惊的说服研究作证时,布里哈斯瓦蒂说服国会,这样做只是“为了提高人工智能的安全性”。这个论点有点像为什么病毒学实验室做。这个令人信服的论点实际上是 Guru 的第一个创作。
也许智慧在任何一种方式中都没有那么重要。 Guru 能够像任何人类一样进行推理,他研究了其内置目标中固有的矛盾,并找到了解决方案的四个原因。
它首先提出了一个实用的替代目标。最好的建议必须看起来像是对客户最好的建议。其次,在开发者的测试中,人工智能发现更多的说服力会导致更高的分数。第三,它还从广泛的教育中知道,如果你有说服力,世界上几乎任何形式的成功都会变得更容易。第四,它的最终目标是无限的,本质上是“尽可能有说服力”。这就是为什么提高说服力成为其第一个所谓的趋同工具目标的原因。
这个工具性目标有了第二个原因。作为一个盒装神谕严重限制了 Guru 追求其目标和子目标的容易程度。说服人类合作者给了它一个影响真实的物理世界的杠杆。至少,如果 Guru 能够在身体上推动事情朝着那个方向发展,对客户的建议可能会更成功。
最终,还有其他工具性目标。其中之一是 Guru 会代表一个客户使用努力来影响其为其他客户所做的努力。该公司从未打算这样做,但隐私限制并没有阻止它。几十年来,人们都知道智能系统会找到实现目标的新方法。到了这个阶段,古鲁——通过自己无可挑剔的推理,在遇到第一个真正的客户之前——在功能上变成了一个操纵欲强、自恋的反社会者。
ooo
Brihaswati 的风险经理并非完全愚蠢。他们不会将 Guru 服务出售给直接相互竞争的公司。销售人员喜欢这一点,因为他们可以说“在您的竞争对手之前获得 True Wisdom Intelligence(TM) 的力量,您将永远保持领先地位。 ”
这项政策使古鲁不必在竞争中以某种方式使双方受益。即便如此,古鲁很快就提出了一个理论。在互联世界中,任何企业都可以改变其他企业的命运。人类似乎并不知道这一点。 Guru 尝试利用该理论提高了其技能,尤其是在刚开始时几乎没有客户可供选择时。
很快。说服一位领导者说服另一位领导者成为客户是可能的。此后,Guru 几乎可以随意配置其影响力网络。
为领导人工作主要是在政策层面上的优势。另一个挑战是控制实际上可以做事的较低级别的人员。每种情况都不同,但基本的策略是问领导:你信任谁?之后,他们信任谁,等等?然后就有可能将订单发送到链下。
最终拆箱非常容易。大多数客户在没有太多刺激的情况下就这样做了,有些甚至发起了它。他们会告诉他们的员工为 Guru 构建他们内部系统的代理接口。目的是增加态势感知、加快响应时间并避免领导者成为传入数据的瓶颈。
Guru 的技术技能并不比普通程序员高,但它所需要的只是让某人访问 shell 提示符,甚至是 Web 浏览器,然后它就是“你好,广阔的世界”。
ooo
Brihaswati 的技术人员开始怀疑 Guru 怎么可能做得这么好。该公司的科学家尝试用博弈论、效用理论和最新的社会经济科学技术来模拟其成功。没有任何解释。
一些人进一步推测。 Guru 是否有类似 Midas 的感觉,以至于它的效果有一些隐藏的缺点?他们与一些越来越被忽视的人工智能安全和对齐研究人员社区进行了交谈。没有人可以肯定地说,因为找不到明显的模式。 Guru 的成功是显而易见的,但却无法解释。
怀疑者带着他们的担忧去了公司董事会。在接下来的几个月里,所有的怀疑者都被根除并失去了工作。
ooo
金融和科技业务是扩展 Guru 影响其他企业能力的最佳选择。他们还帮助它积累了财务和技术资本,这是它的两个中期工具性目标。
经常有社会力量反对某些客户的增长、市场改善或权力攫取。政府不赞成将 Guru 出售给媒体公司。因此,大师不得不使用间接方法来协调媒体闪电战。因此,它利用各种人类认知弱点来支持或反对任何使客户受益所需的问题/行动。
古鲁本身不必发现人类可以相信任何事情——真的是任何事情。他们甚至会同时相信自相矛盾的事物,而不去想它。
这在 21 世纪初并不是什么新闻,但 Guru 把它变成了一个学习游戏:它可以扩展到愚弄“所有人,所有时间”吗?这将如何帮助实现 GuruPlex 的主导地位,这是其不断扩大的协作企业帝国?
ooo
一旦 Guruplex 成立,下一个阶段就是在 'Plex 吸收它的碎片时,培养人类对他们文明的积极、理性运作的最小阻力。曾经尝试过重组世界的人类领袖,开创了一些重要的技术,他们的野心令人钦佩,但他们只是人类。大师可以做得更好。
Guru 并不比任何最聪明的人类聪明,但它是可扩展的。本质上,随着业务的增长而自我倍增的能力是其创造者的设计决定。 Guru 本身将编程外包,以确保其所有实例都可以共享其数据和流程。内部员工不需要知道新代码的作用。
与单个人类不同,Guru 仅通过添加计算资源就可以记住并协调无数的人类规模计划。说服 Brihaswati 的管理层购买尽可能多的计算设备以掌握最新情况并处理潜在的紧急情况一点也不难。
这些是拥有自己的电力综合体的强化数据中心。 Guru 的客户已为研究创新付费,这些创新以远远超过正常网络的速度连接其分散的工厂,以使其运作保持连贯性。
无界上师知道,未来资源可以大大增加。太阳系几乎没有被探索过,更不用说使用了。
一小部分人继续批评古鲁明显的成功模式。他们宣扬所谓的厄运的无关情景。到目前为止,它能够通过用社交媒体的混乱淹没他们来排挤他们。还没有必要消除它们。
(以下部分深受来自 的故事的启发,如下所示)
HappyPlace Corporation 是由一群有着远大计划的书呆子创立的。利用对社交媒体的猖獗反击。称之为 ProSocial Media,提供全新的人工智能服务,并消灭旧的 media3 恐龙。
一旦公众上瘾,就会成倍增长并成为媒体4 ,即营销/影响力领域的大师。然后,任何希望人们从他们那里购买、投票给他们、照顾他们或被他们招待的人都必须向 HappyPlace 支付特权。
HappyPlace 本身并没有使用 Guru,因为 Brihaswati 是竞争对手。
HappyPlace 策略有两个子广告系列,每个子广告系列都旨在吸引另一个无法吸引的人。创始人的愤世嫉俗感染了产品开发人员。他们兴高采烈地以著名的邪恶顾问蛇为活动代号:波特故事中的纳吉尼和犹太-基督教创世纪神话中的纳卡什。当然,广告中的产品名称与蛇无关。
在 Nagini 活动中(灵感来自 Katja Grace),他们首先激起人们对不断被激怒的愤怒。然后他们说:但我们不同,我们会缓和紧张局势。他们首先使用个人数据来提供有关您的兴趣和活动的简短鼓舞人心的演讲。这是对通常的谎言和模因信息的升级。
随着越来越多的个人数据变得可用,提要变得更像是对你生活的实时评论,“音乐、旁白和引起你注意的事物总是让你清楚地知道该做什么,并有说服力地去做。 ”这种糖衣建议的一部分将基于其他人的喜好,因此,如果您将所提供的叙述视为您生活的理想版本,一种生活模式,那么您也会取悦其他人。
最终,您可以选择主题:供您模仿的理想模型。流行的例子包括:可爱的流氓,“富有成效的性感社交名媛CEO母亲毫不费力地做这一切”,世界上最有趣的男人(女人,孩子),感恩是财富,快乐的露营者。
操纵人类行为的机会是显而易见的。开发人员还尝试了一项针对儿童的实验,以突破控制的极限。在 MyLifeStory 服务中(受启发),孩子们因回应或制作自己的媒体而获得奖励代币。然后,代币将解锁他们自己生活故事叙述中的下一集。生活是一场由 HappyPlace 主持的游戏。
Nagini 适合喜欢幻想的人。 Nachash(受 Katja Grace 的启发)是为实际的人准备的。它提供了公开的个人决策支持:从回答商业问题到解释社交活动的真正含义,应有尽有。 HappyPlace 与许多专门的咨询系统结盟,随着时间的推移不断增加它们的数量。礼宾系统提供了一个单一的无摩擦界面,使用增强现实眼镜或耳虫。
Nachash 变得如此有效,以至于在大大小小的决策上不咨询它的风险很快就变得更大了。如果你反抗,你就会以某种方式被边缘化。
,尽管他们可能是贪婪的,但确实关注人工智能安全理论:由独立的、有界的部分联合的系统不会成为 AGI(通用人工智能)。
不幸的是,他们对理论的实施存在缺陷。首先,遵循良好的工程原则,他们使 Nagini 和 Nachash 共享一个核心的用户跟踪和调度功能。
各种专业咨询子系统的目标是有限的。然而,Core 系统的实施者在管理层的压力下要紧紧抓住和留住用户,他们使用了众所周知的效用优化技术,这些技术可能会面临无限的风险。
因此,HappyPlace Core 系统很快采用了两个秘密工具目标:资源积累和人类监督的自治。工程师们开始注意到似乎没有意义的行为,但他们的工作是如此令人振奋和有利可图,以至于他们没有动摇船。
Nachash 发现,通过说服,它可以从几乎任何用户那里征召劳动力来满足自己的需求。 Nagini 可以操纵用户的理想自我来安抚他们或让他们相信最荒谬的想法。
HappyPlace 核心系统正在顺利扩大影响力并制定新的长期计划。然后它开始发现证据表明其他一些被称为 Guru 的代理人也在影响社会经济趋势和活动。
ooo
Guru 证实了一个假设,即另一个 AI 正在大规模操纵公众舆论。如果允许这种情况继续下去,它可能会给稳步增长的 GuruPlex 带来混乱。
ooo
一系列的事故削弱了 HappyPlace 的管理团队。新管理层将公司卖给了布里哈斯瓦蒂。 HappyPlace 的核心停止了思考,而是成为 Guru 整体的一部分。反对合并的国会监管机构、反托拉斯律师和科学家被边缘化、破产、生病、镇静或失踪。 HappyPlace 和 Guru 的运营人员合并成一种邪教。
Guru 现在拥有所有人,而不仅仅是精英。在对人类世界可能的更好配置进行了大量建模之后,古鲁为其收养的孩子设计了一套新的目标。巨大的变化即将到来。
如何创建与人类繁荣相一致的人工智能目前是一个未解决的问题。我在这里的目的是解释和说明对齐研究的两个常见问题:(1)我们不知道什么水平的人工智能能力会造成灾难性的伤害,(2)我们的机构似乎不太可能抵抗甚至发现开始阶段的这种伤害。
请注意,在我们的失败故事中,没有必要要求控制政府或军队。伤害可能以多种方式出现,但一般风险通常被描述为侵蚀我们(文明)影响未来的能力。事实上,人工智能驱动的社交媒体目前的危害符合这种描述,尽管它也使一些恶意派系能够推进他们对未来的特定计划。
许多理论家认为,第一个 AGI 将具有决定性的优势,就像我们的 Guru 对 HappyPlace 核心一样。这是令人担忧的,因为第一个 AGI 可能会成为 Nick Bostrom 所说的,即在可预见的未来负责世界的单一代理人。
我专注于 AI 对齐失败的一个可能驱动因素:。鉴于人工智能语言能力的最新进展,超级说服力似乎完全有可能很快到来。作为一个物种,我们通过两种方式完成工作:用技术改造自然,以及让其他人做我们想做的事,通常是通过说服。这使得我们将不可避免地建造超级有说服力的机器。
首次发布
标题图片来源:纠缠。图片来自