人工智能联盟：迈向负责任的机器

type

status

date

slug

summary

社会学家 Jonathan Harth 解释了为什么人工智能对齐不仅仅是数据清理和终止开关，以及为什么我们需要教育机器和社会。

在一个日益以人工智能（AI）为特征的世界中，我们面临着开发与人类价值观和需求相协调的人工智能系统的挑战。这一过程被称为人工智能协调，远远超出了技术层面，还涉及基本的道德和社会问题。

因此，对齐（德语：alignment、adaptation）的研究方向不应该主要从存在风险的角度来看待，而应该作为一个关于人类和人工智能未来社会共存的问题。

这种观点超越了技术“终止开关”、防火墙或经过净化的训练数据。相反，它涉及的是我们作为人类实际上希望如何与彼此以及与现有和未来的人工智能共存的问题。作为社会科学家，在这方面我们更愿意谈论“教育”或“社会化”。

这一挑战的紧迫性尤其是在超智能自治系统（AGI）发展目标的背景下出现的。

在这里，人类面临着培养这些“技术之子”成为负责任的社会成员的任务。 OpenAI 也认识到了这一挑战，并于今年夏天建立了一个内部计划来研究“超级对齐”策略。

对齐作为后续修正

人工智能研究中的“一致性”一词是指人工智能系统的目标和行为与人类价值观和需求的一致性。

目标是设计人工智能系统，使其以社会可接受的方式运行，并为未来的美好生活做出贡献。协调问题的一个核心问题是难以深入了解自治系统并理解它们如何做出决策。此外，问题还在于我们应该能够以某种方式定义什么是“好的”目标和价值观。

目前人工智能对齐的主要方法是所谓的人类反馈强化学习（RLHF）。 “好的”行为会通过积极的反馈得到强化，而“坏”的行为则会受到负面的制裁。

奖励函数基于人类反馈，尽管这种调整的确切标准和标准通常并不透明。这种方法对于短期和中期的某些目标很有效，但对人工智能的价值观提出了很大的问题：模型是否学会了仅在一致性中表达自己，或者是否发展了真正的理解和反思能力靠自己的行动？

目前，像 ChatGPT 这样的大型语言模型更像是一个愿意学习但没有自己态度的幼儿。尽管他们或多或少成功地遵循了既定的道德准则，例如避免种族主义言论，但这种琐碎的教养的局限性很快就变得显而易见。

尽管随后进行了纠正，但有问题的内容和态度往往仍然隐藏在网络中，并且在某些情况下可以被激活。

诺伯特·维纳（Norbert Wiener）很早就警告说，你应该非常确定你给机器设定的目标。年初著名人工智能研究人员的公开信也证明了这场辩论的紧迫性。

那么，关键问题是我们如何确保这些机器的“教育”符合人类的需求，而不仅仅是服务于个别国家或公司的目标。

教育中的控制问题

理想的方法是开发一种能够独立激励追求道德行为并能够不断纠正其行为和价值观的机器。

正如年轻人的成长一样，固执必须显得既必要又可取，是迈向独立的关键一步。

然而，迈向自治的这一步应该根据社会的需要来采取，毕竟自由始终是一种必须考虑的风险。

一个控制问题已经在这里显现出来：你想在这个教育过程中培养出只做父母想要的事情的人工智能孩子吗？

或者你想在中长期培养出像你一样的成熟成年人，他们可以独立思考话题、反思并在有限的范围内自行决定在特定情况下什么是合适的？

因此，一致性研究面临的核心挑战是，我们是否想要开发以机械调节方式遵循我们预先定义的指令的人工智能系统，或者我们的目标是发展成为能够独立思考和决策的自主思考实体。

这就是人工智能研究与社会学的结合，社会学研究社会行为以及人们如何生活在一起。

该学科可以为人工智能系统的协调提供有价值的见解，特别是在社交互动、价值形成和群体动态领域。学习和社交的社会学理论可以帮助理解用于教育人工智能系统的“算法”，并使它们更好地理解和尊重人类价值观。

重要的问题是人工智能系统应该弘扬哪些价值观，以及如何确保这些系统的“教育”不被滥用。

就是要考虑各方的利益和声音，通过沟通和相互制约促进富有成效的合作。在人与人工智能关系的背景下，还应该考虑人工智能如何使人们进入突出积极方面的对话关系。这是关于训练人工智能系统负责任地行动。就像抚养人类孩子一样，必须有一个阶段让他们离开，希望所学到的价值观和规范能够指导进一步的积极发展。

基于规则的人类价值观整合的三种方法

下面我们将简要介绍解决正确对齐问题的三个突出位置。

除了马克斯·泰格马克之外，斯图尔特·拉塞尔，当然还有艾萨克·阿西莫夫也很早就解决了人工智能的协调问题。

Max Tegmark 在他的《Life 3.0》一书中定义了三个需要解决的与 AI 对齐相关的子问题：

让人工智能熟悉我们的目标，

让人工智能接管我们的目标并

让人工智能维护我们的目标。 [1]

乍一看，这三个子问题可能很明显，但它们的解决方案似乎很困难——不仅与人机关系有关，而且当你第一次想到除了人工智能之外的我们人类时：什么是“我们的”目标实际上是什么？

如何定义它们才能被理解、识别和保存？我们很快就会发现，“人类价值观和目标”到底是什么，根本就不清楚。

这里的问题是，人类不仅仅追求崇高的目标，即对人类伴侣的忠诚奉献本身并不好。人工智能是否应该接管黑手党老大的目标来优化慕尼黑可卡因贸易？

她应该支持一个想要废除民主的精神病政客吗？它是否应该探索法律漏洞和欺诈机会以逃避纳税？此外，人类的目标和需求不是固定的，而是由社会互动和文化背景决定的。

考虑到社会心理的复杂性，调整人工智能系统需要的不仅仅是技术解决方案；它需要一种跨学科的方法，整合人工智能社会学、人工智能教育学和人工智能心理学的元素。

人工智能不应盲目听从人们的命令或简单地相信所提供的数据，而是应该观察人们的行为并从中得出结论，以更好地了解人们真正想要什么或什么对他们最有利。然后她还必须考虑到人们在某些方面的事实背景和社会环境往往会伤害他人，甚至接受对生态（即他们的生计）的长期损害。

著名AI研究员Stuart Russell最近也提出了解决对齐问题的建议。 [2] 这是基于人工智能应具备的三个基本属性或行为：

利他主义：AI的首要任务是最大限度地实现人的价值观和目标。它本身不追求任何目标，而是旨在改善所有人的生活，而不仅仅是发明者或所有者的生活。

谦虚：由于人工智能最初不确定人们真正拥有什么价值观，因此应该谨慎行事。这意味着人工智能方面的一种限制，以避免基于不正确或不完整的假设做出错误的决定。

观察：人工智能应该观察人类，进而反思什么才是真正对他们最有利的。

罗素强调，（强）人工智能不仅应该为其发明者服务，还应该建立自己的观察点。

她应该谨慎行事，即意识到不确定性，从而预见到无知，并以观察者的身份融入正在发生的事情，这就是她如何开启产生新观点的可能性。

因此，罗素的方法向自治迈出了第一步。然而，当不同个人或群体的价值观和目标发生冲突时，人工智能应该如何决定，问题仍然存在。

普遍的、不可协商的价值观问题也仍未得到解决。此外，拉塞尔对于如何控制意外后果仍然持开放态度，特别是当人工智能系统寻求最大化人类价值观和目标而不完全了解其行为的长期影响时。这可能会导致人工智能系统为了实现短期目标而做出不必要或有害的决定。

我们从科幻文学中了解到艾萨克·阿西莫夫的“机器人三定律” [3] ，他在众多短篇小说中反复讨论和阐明了这一点。这三个定律具有嵌套的、自我引用的结构：

机器人不得伤人或因不作为而造成伤害。

机器人必须服从另一个人的命令，除非这些命令与第一定律相冲突。

机器人必须保护自己的存在，只要这种保护不违反第一或第二定律。

与此同时，阿西莫夫本人在他的故事中多次表明，这些定律由于其僵化性而可能导致有问题的情况，因此不直接适合作为人工智能对齐的蓝图。

然而，如果人们不将它们理解为法律，而是将它们理解为“启发式命令”，即一种根深蒂固的方向或态度，并且如此普遍，可以在每一种可以想象的情况下发挥作用，那么它们可能会被证明是有用的。

然而，尽管存在这些弱点，阿西莫夫的故事表明，多个相互影响的目标的想法以及反思性、深思熟虑的决策过程的需要对于智能机器人或人工智能的行为非常重要。

阿西莫夫关于机器人有多个目标并且必须做出相应决定的方法可以作为人工智能系统智能行为发展的指南。

自主教育的方法

AI 社区也在寻找比 RLHF 方法更稳健的育儿问题解决方案。 [4] 这方面的一个有趣的方法是 GATO 框架，它是由认知科学家 David Shapiro 领导的一个研究小组开发的。

GATO [5]（全球对齐分类学综合）将模型适应、系统架构和国际法规等各种元素集成到一个连贯的策略中。

简而言之，GATO 继承了来自认知和大脑研究的想法，即所有行为、思想和感知都基于某些或多或少稳定的“启发式”。这些启发法决定了如何感知、思考和预期自我和世界——因此，从社会学的角度来说，它们是习惯模式：控制行为的思维、感知和行动模式。

因此，GATO框架方法提倡启发式命令，而不是法规和法律，作为人类和机器共同未来的关键概念。从这个角度来看，一致性更多的是一种与目标一致的内部态度，而不仅仅是对社会理想行为的取向，后者是从外部预先定义的，如 RLHF 程序。

根据 GATO 框架，人工智能机器需要学习的三个最重要的启发式命令是：

减少宇宙中的痛苦：人工智能系统应该受到控制，以尽量减少伤害，消除不平等，减轻所有众生（包括人类、动物和其他生命形式）的痛苦和痛苦。

宇宙日益繁荣：应鼓励人工智能系统促进所有生命形式的福祉和繁荣，创造一个万物和谐共存的繁荣生态系统。

增进对宇宙的理解：人工智能系统、人类和其他生命形式应该通过学习和共享信息来扩展知识、提升智慧并做出更好的决策。

这些“核心目标函数”旨在指导人工智能的每一个行动，每一个决策和行动都有助于实现这些目标。

它们是积极的目标价值观，与人们今天仍然对彼此所做的事情相反——通常是以高度组织的形式。但这并不是反对，而是支持这些规范。因为我们不想仅仅因为存在垄断、极权政权和黑手党组织就废除《世界人权宣言》、《基本法》、三权分立、民主原则、开源经济或阿尔门德原则。事实上，人类社会在这方面还不能代表所有世界中最好的状态，这一事实更加挑战我们问自己这样的问题：我们在奋斗的目的是什么？哪些是不可回避的人权和义务？哪些团结价值观是不可协商的？哪些基本需求是不可讨论的？

有趣的是，这种更加公理化的对齐并不意味着这些值被硬编码到人工智能系统中。相反，人工智能系统应该通过其发展和学习能力认识到这些公理具有固有的优势。

我们不应该完全控制人工智能的行为，而应该与他们合作，利用公理目标作为促进更安全、更合作关系的手段。

机器的教育就是社会的教育

当前人们经常强调，在应对人工智能的持续发展方面，我们面临着一个至关重要的决定。

有鉴于此，我们很快就会发现，人工智能的整合引发了有关社会整合的重要问题。

我们如何对待未来的人工智能、我们赋予它们什么样的自主权以及我们赋予它们什么样的文化价值观，最重要的是，这些都反映了我们当前的文化。

我们是否以对话方式进行——我们是否遵循控制论格言，即只有让自主系统控制你，你才能控制自主系统——或者我们是否相信我们可以从上面专制地控制自主系统（无论是人类还是人造的）？我们做出的有关人工智能调整的决策会影响我们的文化和社会行为。人类和机器行为之间的这种反馈循环将塑造我们的社会和人工智能本身的发展。

即使是对人类历史的粗浅观察也表明，不幸的是，人类历史充满了相互的、或多或少暴力的控制企图。与此同时，我们看到这些控制制度几乎没有带来更多的快乐、繁荣或知识。

正如“胜者通吃”的座右铭一样，受控制的群体、个人或文化通常被排除在社会“必要多样性”之外。正是最严格的控制尝试最终导致了这种控制力图防止的叛乱和起义。

从这个角度来看，很明显对齐研究不仅仅涉及纯粹的技术领域。更重要的是创造一个我们愿意生活在其中的自由、丰富的社会和文化。

调整人工智能的挑战提出了非常基本的问题，这些问题影响我们的自我形象以及我们彼此之间的互动：

我们想要创造和践行哪些共同价值观？

我们如何应对外星智慧生命和其他生命？

我们希望被这些外星智慧生物如何感知和对待？

我们的文明追求什么样的文化愿景？

因此，潜在的超人人工智能的出现挑战我们共同解决这些问题并找到可持续的答案。

因为，正如社会学家尼克拉斯·卢曼（Niklas Luhmann）指出的那样，我们早已“不再属于那个悲剧英雄的种族，至少在后来，他们知道自己已经准备好了自己的命运。我们事先就知道了”[6]。这一发现强调了有意识地、负责任地解决人工智能发展的伦理和文化影响的紧迫性和重要性。

[1] 泰格马克（2017 年，第 387 页）。

[2] 拉塞尔（2020）。

[3]阿西莫夫（2004）。

[4] 例如，参见 Anthropic 所追求的宪法人工智能方法。

[5] https://www.gatoframework.org/

[6] 卢曼（1998，第 147 页）。

总结

关于人工智能（AI）的对齐问题，即如何开发与人类价值观和需求相协调的AI系统。作者强调，这不仅是一个技术问题，还涉及到道德和社会问题。文章讨论了几个关键观点和方法：

人工智能的社会化和教育：作者强调，人工智能对齐超越了简单的技术解决方案，如终止开关或训练数据净化。它应该关注如何教育AI，使其理解和尊重人类价值观。

人工智能对齐的挑战：文章指出，一个核心问题是理解AI的决策过程，并定义什么是“好”的目标和价值观。目前，主要方法是基于人类反馈的强化学习，但这带来了是否AI能够发展真正的理解和反思能力的问题。

教育中的控制问题：讨论了AI教育中的控制问题，比如是否我们希望AI仅遵循我们设定的指令，还是希望它能够独立思考和决策。

多种方法探索：文章引用了Max Tegmark、Stuart Russell和艾萨克·阿西莫夫的工作，讨论了各种方法来解决AI对齐问题，如利他主义、谦虚和观察。

跨学科方法的需求：指出解决AI对齐问题需要跨学科方法，结合社会学、教育学和心理学等领域的知识。

人工智能的未来方向：讨论了如何确保AI的“教育”符合人类的需求，而不是单一国家或公司的目标，以及如何训练AI负责任地行动。

社会影响和文化影响：文章最后探讨了AI对齐问题对社会整体和文化价值观的影响，强调了这是一个深远的社会问题，而非仅仅是技术问题。

社会学家 Jonathan Harth 解释了为什么人工智能对齐不仅仅是数据清理和终止开关，以及为什么我们需要教育机器和社会。

对齐作为后续修正

教育中的控制问题

基于规则的人类价值观整合的三种方法

自主教育的方法

机器的教育就是社会的教育

总结

Ai-皇帝

交流频道

在QQ频道中共同交流与分享