2025/05/30 信息来源: 《学术前沿》
文字:庞珣| 编辑:青苗 | 责编:安宁作者简介
庞珣,北京大学国际关系学院教授、北京大学全球风险政治分析实验室主任。研究方向为全球风险政治与治理、经济与科技的地缘政治与安全、计算政治学、社会科学统计与数智方法。主要著作有《全球治理中的金砖国家外援合作》(专著)、《人工智能赋能社会科学研究探析——生成式行动者、复杂因果分析与人机科研协同》(论文)、《反思与重构:全球安全与全球治理的风险政治理论及方法》(论文)等。
摘要
在国际关系视角下,人工智能对齐不仅是技术风险治理的核心议题,更关乎未来全球秩序稳定性。近年来,人工智能对齐研究逐步从假定个体目标独立性的“直接对齐”延伸至更具结构性的“社会对齐”,在对齐过程中纳入偏好的外部性和群体排序等宏观层面问题。进一步看,人工智能对齐还不可避免地涉及价值冲突、制度协调和地缘政治张力,亟需在全球政治框架中予以审视,确保由人类主导的全球秩序的功能和价值,即实现“秩序对齐”。人工智能正在与人类形成新型且复杂的“委托-代理”关系,不仅影响既有全球秩序的运行逻辑,更可能演化为秩序的一部分。国际关系学能为对齐提供概念框架和分析工具以识别和解决“委托人问题”,揭示对齐的结构性挑战和政治本质。唯有通过政治妥协和弹性治理,方能防止人工智能沦为地缘博弈工具,从而释放其造福人类的潜力。
人工智能对齐的国际关系分析
人工智能对齐(AI alignment)旨在确保人工智能系统的目标和行为与人类的意图、利益和价值观等保持一致,从而避免意外出现的负面后果。这不仅是关于人工智能伦理和安全的核心研究议题,也是技术风险治理中的关键任务和长期挑战。当前,相关研究主要聚焦模型的行为可控性和目标一致性,认为人工智能对齐主要是借助技术手段(如优化算法和反馈机制等)来加以解决的问题。然而,人工智能对齐的意涵和挑战远不止于此,它涉及广泛而多元的利益和深层的价值维度,是关于全球性复杂风险的治理议题。正因如此,在人工智能对齐领域中,构建对齐目标和过程的概念框架正在成为一项重要任务,以期在目标函数中纳入利益和偏好的外部性,探究如何通过对群体目标的排序和加总来表达社会性福利。随着哲学家和社会科学家越来越多的加入,人工智能对齐日益成为一项融合工程技术、哲学思辨和社会科学分析的复杂跨学科任务。
国际关系学对人工智能的发展给予了高度关注,这主要表现为聚焦国家间技术竞争所引发的战略风险以及关于技术标准和监管制度的国际竞合。这些探讨极少涉及人工智能对齐问题,而是倾向于视其为纯粹技术议题,从而难以看到国际关系学对这一重大问题可能作出的贡献。然而,如果缺乏从人工智能对齐视角来讨论技术的战略风险,国关学者在思考和分析人工智能风险治理时就可能缺乏有效的切入点和明确的问题意识,分析和观点容易流于抽象愿景的表达和对技术的一味警惕。同时,如果缺乏全球宏观视野和国际政治理论框架,人工智能对齐领域的工作也难以充分考量技术系统与国际秩序的同构关系,可能导致狭隘和局部的对齐,不仅会强化全球数字分裂,还将背离人工智能对齐初衷,产生新的结构性失调和失控。
因此,从国际关系理论视角审视人工智能对齐有其必要性和重要性。人工智能对齐不仅是技术风险治理的操作基础,更应被视为支撑全球秩序稳定的微观机制。唯有在全球政治框架内对其加以理解,才能有效应对人工智能可能带来的整体性和文明级挑战。本文对秩序和对齐的关系进行国际政治学分析,提出“秩序对齐”概念,在“委托-代理”理论框架下探讨“秩序对齐”的理论基础和核心问题。人工智能正在作为非传统代理人(non-traditional agent)与人类建立起广泛的“委托-代理”关系,这意味着对齐任务中的核心挑战不是代理人问题,而是“委托人问题”(principal problem),即如何在地缘政治分化的全球现状下,就人工智能系统的对齐目标进行正当性构建、价值协商和冲突协调。如何解决委托人问题不仅影响人工智能系统的可治理性,也关乎全球政治秩序的未来走向。
秩序对齐意味着,人工智能对齐是一个“二阶段对齐模型”。第一阶段的对齐发生在人类之间,通过全球范围内的政治协商和宽容妥协,形成对全球基本秩序目标的最大共识。第二阶段发生在人机之间,即借助技术路径和算法机制来实施人工智能系统与上述共识目标的对齐。国际关系学可为第一阶段的对齐提供理论框架,尤其有助于在对齐任务中妥善纳入对政治本质和地缘风险的理解。政治是一个协调冲突性多元利益以及实现价值观妥协和制度调适的动态过程,可被视为对偏好和利益的经验性而非规范性的“加总”机制。在人工智能发展路径高度不确定和国家间利益价值分歧显著的现实中,发挥国际政治的加总机制,对于人工智能的秩序对齐至关重要。人工智能的秩序对齐应直面主权国家体系的地缘政治现实,充分考虑技术系统与局部目标进行“完美对齐”后加速和放大地缘政治竞争的灾难性风险;同时,避免这种风险要求对齐的核心为以全球政治妥协为基础的弹性治理。人工智能对齐任务远远超出了技术范畴,而是取决于人类如何在全球范围内构建共同治理框架。
人工智能对齐:超越技术的技术风险治理
人工智能风险治理与对齐任务。随着人工智能的快速演进,公众、学界和政界围绕其未来发展形成了矛盾交织的两种叙事。第一种叙事高度期待人工智能突破人类认知和行动边界,将其视为推动生产力发展和科技创新的发动机。另一种叙事则笼罩着通用人工智能(AGI)或超级人工智能的未来阴影,对“异类智能”带来深层不确定性深感忧虑,甚至对存在性风险的末世想象挥之不去。这样的双重叙事表现出技术想象中希望和恐惧之间的张力,也构成了人工智能治理的重要语境。人工智能技术带来的机遇可以被具象化为可见的产品或场景,但其风险却具有潜在性、模糊性和可争议性的特征,更难以达成共识,也更易受到想象的支配。
通过保证技术系统的目标和行为对齐人类意图和价值来实现技术风险治理,这在历史上前所未有。从前的技术无论多么具有“革命性”,但都不具备智能性和能动性,也就谈不上与人的“对齐”。人工智能的特殊性在于,其风险不仅源于技术的功能性能力,更因其作为“技术代理人”(technical agent)而在目标追求和决策执行中具有相对自主性,产生偏离人类意图、目标与价值观的可能性。尤其在AGI语境下,“代理人风险”可能演化为全球层面的系统性风险,进而可能影响整个人类文明的未来发展轨迹。因此,确保人工智能系统行为的可预测性及其与人类价值的对齐,成为人工智能研究中的核心议题。
既有研究系统性地总结了人工智能风险的四个主要来源:其一是恶意使用,即出于造成广泛破坏的目的而操纵人工智能技术;其二是技术竞赛压力,即各方在缺乏充分安全保障的情况下,为争夺技术优势而加速推进研发;其三是组织管理风险,即由于制度设计不善、激励机制扭曲或信息不对称等导致人工智能系统被误用;其四是超级智能的潜在失控,尤其在追求复杂目标的过程中,人工智能系统可能将“获取权力”视为一种工具性手段,并逐渐演化为将权力本身作为终极目标。AGI很可能将权力的获取视为实现各类目标的普遍最优策略,进而演变为一种“追逐权力的系统”(power-seeking system)。人工智能对权力的追求不仅可以针对其他人工智能系统,也对人类构成威胁。
可见,人工智能对齐关系到技术系统的安全性和可控性,是实现有效风险治理的基础。当今人工智能系统自主性水平快速提升,日益广泛地应用于社会生活各领域,并逐渐扩散至高风险决策应用场景,如医疗、金融、司法与军事等。这让人工智能偏离人类目标和价值的风险愈加突出,人类因这些潜在风险可能付出的代价也呈指数级增长,这使得构建一套有效的治理机制以实现其价值对齐和行为可控成为当务之急。同时,人工智能风险的重要性、复杂性和多样性,决定了对齐任务远远超出“技术-用户”的直接对齐,呼唤来自不同学科的有识之士加入对这一议题的思考和探索。
人工智能对齐范畴的扩展:从“直接对齐”到“社会对齐”。“直接对齐”指确保人工智能系统的目标与其直接用户的意图保持一致,主要采取强化学习中的人类反馈机制(RLHF)等路径,优化人工智能对个体偏好的响应能力。这种对齐聚焦直接用户的目标,并假定这些目标具有可操作性和正当性,而人工智能系统的对齐任务就在于准确理解并忠实执行这些目标。随着人工智能系统日益具备复杂的自主决策能力,其行为所带来的后果往往超出单一用户范畴,进而产生广泛而重要的社会外部性。在开放环境中,用户并非孤立的行动者,其目标达成往往涉及与他人的互动、博弈甚至操控。例如,用户可能通过人工智能系统精准地操控话术和情境,骗取他人信任,从而实现自身利益最大化。“直接对齐”表面上符合技术性效用最优化,但却可能严重损害个人尊严和福利,违背社会基本伦理和危害社会秩序。
鉴于此,人工智能对齐须将行为的社会后果系统性地纳入考量,这推动了对齐研究从“直接对齐”扩展至“社会对齐”(social alignment)范畴。“社会对齐”强调人工智能系统的目标函数应内生化个体行为的外部性,以社会整体福祉为优化基准。这一扩展要求从对齐个体偏好到对齐规范性社会价值,在人工智能系统对齐中引入某种形式的“社会福利函数”(social welfare function)。然而,设计社会福利函数并非纯技术性任务,而是深植于伦理哲学和政治理论。不同的规范取向会衍生出差异化的对齐路径,例如,功利主义强调结果导向和整体效用最大化,义务论关心行动是否符合某些先验的道德规范,而美德伦理则重视行为背后的动机和角色特征。如何在多元价值之间构建人工智能系统的决策基础,是“社会对齐”的关键议题。此外,社会选择理论揭示了集体偏好的不可传递性(intransitivity of collective preferences)(如阿罗不可能定理),表明在多主体环境中构建稳定和公正的社会福利函数本身就是一个悖论。这些都意味着人工智能的“社会对齐”并不是一蹴而就的,而是一个需要持续性制度设计和政治协商的过程。
人工智能的秩序对齐:科技变革下的全球秩序问题
任何对群体目标进行排序或加总的原则,都难以在客观上确立普适且唯一的最优标准。尤其当涉及广泛的个体与群体时,目标之间不仅存在差异,还可能在本质上不可通约(incommensurability),甚至具有结构性冲突。这意味着,人工智能对齐不能仅简单考虑个体偏好和行为的外部性,还需正视和处理目标之间可能存在的冲突和矛盾。从全球层面来看,人工智能对齐任务成为这样一个命题,即当技术不可避免地成为人类秩序的一部分时,如何在多元利益的冲突中建立和维持基本秩序。这要求人工智能对齐从“社会对齐”范畴继续扩展至“秩序对齐”。
秩序与对齐。秩序和对齐是两个内在关联的概念。尽管学界存在对“秩序”(order)的多种定义,但基本认可秩序是为行为体的行动和互动提供框架结构,从而构建可预测、可协调的系统环境。秩序的核心功能在于为体系提供稳定性保障,包括在最低层次上确保安全,使行动者能够形成关于自身生存与未来发展的稳定预期,以及在更高层面上为促进合作、构建制度和实现价值提供基础可能性。秩序所提供的稳定性依赖于对体系内部冲突进行持续性预防、管理和调节。秩序既可以是自发演化而成的协同结构,具有较高的弹性和容错性,也可以依赖第三方权威得以建立和执行,表现为刚性的治理结构。但无论其起源和类型如何,秩序得以建立、维系并发挥实际效能的前提,是体系成员在理念、原则及行为实践等层面达到一定程度的“对齐”,即在关键目标、规则、价值和底线规范上达成基本共识。
从广义上看,“对齐”(alignment)指不同行为体的目标、行为或功能在某种共享框架内达成协调一致的过程。这种协调并非二值状态,而是具有连续性和多样性,可以有不同的程度、类型和方向。对齐既可以是认知和价值层面的趋同,也可以是机制和行为层面的协调;对齐过程既可能是自发演化,也可由权力施加和制度约束来推动。对齐在各个面向上的特征决定了秩序的特征,例如,对齐程度的高低影响秩序的强弱,对齐的方向(水平协同或垂直统摄)关系到秩序的中心化程度和权力分布,对齐的目标和原则奠定了秩序的价值取向和合法性基础。同时,对齐在程度和目标上一旦发生变化就会引发秩序的调整、重构甚至范式性变革。构建或改变社会秩序也总是通过重塑对齐目标和规则配置得以实现。因此,理解“对齐”是理解秩序演化的一个重要理论切入点。
人工智能对齐之所以如此重要,正是由于其可能对人类所建立和主导的秩序产生巨大影响。在当前及可预见的未来,人工智能将深刻重塑国际体系中的国家关系结构和权力格局。一方面,人工智能正逐渐成为影响国家竞争力的重要变量;另一方面,人工智能系统本身日益具备行动能力与决策功能,以行为体的身份成为秩序的一部分。从秩序与对齐的关系可以看出,构建人工智能对齐框架需考虑至少以下两个重要方面:一是人工智能系统如何适应人类社会价值体系和利益结构的高度复杂性,二是如何确保人工智能融入人类系统后全球基本秩序的稳定。可见,人工智能对齐不应被视为纯粹的技术挑战,而应作为全球秩序构建的重要变量纳入系统性考量。
在传统国际秩序理论中,大国关系是核心关切,因为大国间达成的“基准对齐”(baseline alignment)能够通过权力投射、规则扩散和制度设计,辐射甚至强制其他行为体与秩序对齐,从而支撑起全球秩序的基本架构。在当前和未来,人工智能将逐步成为一种新的强大的战略行为体,其系统能力和跨境作用机制,可能使其具备可与国家比肩的系统性影响力。值得警惕的是,人们往往因人工智能缺乏有机体和自主意识而忽视其成为行为体的可能。从国际关系理论角度看,当前世界的主要国际行为体(如国家、国际组织、跨国企业等)基本是制度性的非有机体,其行为的生成性主要依赖于规则系统和信息处理结构。事实上,决策模型和行动系统是国际关系学中行为体的核心维度。因此,人工智能并不因其缺乏生物基础而无法成为国际关系行为体。相反,人工智能实际上已经开始广泛嵌入国际体系,在与现有行为体的互动中塑造这一体系。
更为重要的是,人工智能系统之间的互动日益频繁,其部署方式也日臻复杂,将越来越多地通过协同或对抗机制完成各类任务。这预示着一个由人工智能系统构成的次级“生态体系”正在形成,并逐渐与人类社会主导的全球政治结构形成深度耦合。在一些决策领域中,人工智能甚至开始主导关键判断过程,形成“人机共治”现实。因此,在全球治理的新图景中,人工智能生态系统与人类生态系统将并存和互嵌。这一趋势提出了一个根本性问题,那就是人工智能是否能够、又应当如何与人类秩序系统进行有效对齐,以保障一个可持续和可协同的全球未来。
秩序对齐:人工智能对齐的第三范畴。从秩序和对齐的关系来看,人工智能系统在接收来自个体或群体的目标输入时,必须评估这些目标所涉及的广泛网络,以及这些网络对秩序的潜在影响。目标之间的不可通约性和潜在冲突性,要求人工智能系统在制定决策时突破简单的效用最大化,关注如何在冲突中维持系统的协调和秩序。换言之,人工智能对齐不仅应超越“直接对齐”,也不应止步于“社会对齐”,需更进一步关注如何在一个高度复杂且动态变化的利益结构中维护系统的稳定、规范和秩序。这就是本文提出的“秩序对齐”。
秩序对齐的核心在于,人工智能系统不应仅追求局部范围内的效用最大化,而应在执行与人类目标相关的任务时,始终对齐人类社会赖以维系的基本秩序。秩序并非由一组静态不变的价值预设构成,而是处理目标冲突、管控系统性风险、维持合作关系和促进正义分配的人类基本共识。通过秩序对齐,人工智能系统才能在多元价值并存、目标持续演化、冲突不可避免的复杂现实中,有效维护人类系统的结构性稳定和可持续发展。
秩序对齐要求人工智能系统超越对个体目标的线性排序逻辑,关注不同利益目标之间的互动关系和调和方式。对齐任务的核心不在于如何为各类目标赋予数值权重,而在于构建一种能够容纳基本规则与制度原则的动态目标函数。人类社会的整体目标从来都不是通过中央机构或先验理论框架加以固定和执行的。历史经验表明,全球秩序总是在地缘政治的博弈与妥协中动态生成。因此,秩序本身并非静态可编程的终极目标,而是一种在冲突中演化、在规则中维系的状态。承认目标之间的张力和冲突,以及秩序的历史性和动态性,是实现可持续人工智能对齐的基本认知前提。已有研究开始关注到这一点,提出了人工智能的“政治对齐”(political alignment)。这一维度强调融合不同的政治利益和监管限制,以促进在不同政治格局中进行负责任的人工智能开发和部署。与秩序对齐概念相似,这里的政治对齐也强调对齐目标本身的政治构建性,要求人工智能系统在制度约束和合法性结构中运行。
人工智能的兴起,在人类历史上首次出现了一种非人类系统对秩序演化路径的广泛深刻影响,使得“谁决定秩序”成为一个更具开放性和紧迫性的问题。人工智能对齐关系到如何确保人类能够决定自身的未来,这也正是秩序对齐试图回应的核心挑战。虽然现有国际秩序从未实现真正意义上的“全体人类共决”,但其正当性始终建立在人类社会内部的政治协商基础之上。
人工智能秩序对齐中的“委托-代理”问题
国际关系学的核心议题之一是:在缺乏中央权威的国际无政府状态下,在利益、目标和意图等方面相互冲突的行为体如何实现基本对齐,从而建立和保障和平共存的基本秩序,以及构建促进和平、公正与繁荣的高层次秩序。这样的对齐在传统上主要发生于主权国家间的水平互动,但随着全球秩序演化以及国际行为体的多元化,国家和国际组织以及跨国公司等非国家行为体之间建立起复杂而普遍的“委托-代理”关系。特别是在“霸权之后”的制度性秩序构建中,国家往往通过制度设计,将特定秩序任务委托给国际组织和其他行为体。 “委托-代理”理论也因此成为理解国际秩序的重要分析框架。在理解人工智能系统的秩序对齐方面,这一框架有助于揭示其中的关键难题。
人工智能全球治理中的“委托-代理”问题。建立和维持大规模社会秩序,不可避免地要依赖“委托-代理”(principal-agent)关系的建立和发挥效能。“委托-代理”理论起源于经济学和组织理论,用以分析当一方(委托人)将任务交予另一方(代理人)执行时,因信息不对称、目标不一致和监督成本等问题,代理人行为可能偏离委托人意图,造成效率损失和风险。这一理论广泛应用于公司管理、公共政策、法律、政治学和国际关系等领域。
有效的授权机制可以提升委托人实现目标的能力,但授权始终伴随“错位风险”(misalignment risk),这正是“委托-代理”难题的核心所在。错位风险来源于代理人的三个关键特征,一是目标导向的行动能力,二是在执行任务的过程中拥有一定自由裁量空间,三是由于信息不对称或监督成本高昂难以被完全控制。在历史和现实中,人类授权的代理人多种多样,包括人类个体、组织、制度性实体,甚至包括动物(如信鸽和牧羊犬),都在不同程度上具有代理人的以上三种特征。
在人工智能出现之前,无论多么强大的技术,都是缺乏自主意图的被动工具,未曾被视为代理人。但当前的人工智能系统则不同,具备了成为代理人的特征。首先,代理人须具有目标导向性的行动能力,智能正是在多种环境中实现目标的能力。现代人工智能系统通过优化预设的目标函数来完成任务。尽管这些目标最初由人类设计,但人工智能系统会通过自主制定一系列工具性目标(instrumental goals)来更高效地实现最终目标。这类目标设定虽非出于自主意识,却已展现出超越传统工具的智能特征。
其次,人工智能具备一定程度的自由裁量权(discretionary power)。以大语言模型为代表的生成式人工智能,在遵循底层算法逻辑的同时,展现出在任务执行路径和输出内容上的高度灵活性。其行为虽受训练数据和算法框架的约束,但在给定输入下的响应具有一定程度的随机性和不可预测性,使其决策过程具备了近似“裁量”的特征。这种在特定边界内的行为自主性,构成了人工智能作为代理人区别于传统工具的关键所在。
最后,人工智能的“黑箱”性质进一步加剧了“委托-代理”问题的复杂性。现代人工智能系统大都依赖深度神经网络,其内部表征与推理路径缺乏透明度,难以被人类解读和解释。尽管可解释人工智能(Explainable AI, XAI)试图提升模型透明度,但这些方法能够提高的仅是系统输出的可信度与可验证性,而非彻底打破“黑箱”结构。虽然这并不意味着人工智能完全不可控,但对基于监督、合约和激励的传统代理关系构成了挑战。
人工智能的这些特征,意味着人类首次需要与具备一定自主性和策略性的技术之间建立“委托-代理”关系,这不仅重新定义了对齐任务的内涵,更改变了人类秩序构建的底层逻辑。从霍布斯到洛克的社会契约理论,可以被理解为一种宏观层面的“委托-代理”结构——公民授权给国家建立社会秩序和提供安全保障。人工智能对齐之所以对秩序构成深刻挑战,在于人与技术之间可能首次建立起广泛、持续并具有结构性影响的“委托-代理”关系。纵观历史,所有重大科技革命——从蒸汽机到互联网——虽然带来了效率和组织方式上的巨大变革,但其对秩序产生的冲击,都是通过人与人之间关系重构与重新对齐来实现的。技术本身并不具备能动性,而是通过带来红利和风险,迫使人类在分配、治理、责任与规范等层面重新协商目标和价值,从而影响制度安排和秩序结构。
以第二次世界大战后的全球秩序为例,核技术带来的冲击和风险具有全球的整体性和文明级的人类生存性,但其对秩序的重塑并非通过广泛嵌入人类秩序来实现。核技术对秩序的影响,来自美苏在“核恐怖平衡”中实现的心理和战略对齐,即人类及其组织对技术风险的共同认知、共同承受和制度性管理。其中,“技术-人类对齐-秩序”之间的关系非常清晰。技术不是直接塑造秩序的行为体,而是激发人类集体协调的外部变量。秩序的真正基础仍是人类行为体之间的目标对齐,而非人与技术之间的协调。
人工智能的出现打破了这一间接性逻辑。由于其具备代理人的核心属性,人工智能正在成为真正意义上的“参与性代理者”(participatory agent),而不仅是人类行为的延伸工具。这种新型的“委托-代理”关系,可能将人类社会带入前所未有的秩序不确定性之中。更具挑战性的是,人工智能系统之间可能发展出一种高度内生化的“对齐机制”,系统间的信息互通和策略协调能力远远超出人类之间的协调和对齐能力,从而突破人类对人工智能的理解和控制。发生于人工智能系统内部的“瞬时对齐”可能衍生出脱嵌于人类规则体系之外的次生秩序系统(secondary order system),不再以人类为核心权威,也未必尊重既有的价值排序和逻辑。这不仅意味着对现有治理体系的重构,更关乎一个根本性问题,那就是人类是否还能在未来秩序中维持主体性和主导权。
从“代理人”问题到“委托人”问题。在传统上,“委托-代理”问题简称为“代理人问题”(agent problem),因其核心在于如何设计激励和监督机制,在发挥代理人能动性的同时,保证其忠实于委托人的目标和利益。在经典治理结构中,防范错位风险主要依赖于对代理人行为的约束、监督和激励设计。这一框架假定委托人单一且明确,目标清晰、稳定且可衡量,从而对齐任务的难度主要来自代理人方面偏离目标的风险。然而,在人工智能时代,这一假定面临根本挑战。人工智能系统面向多个利益相关方提供服务,委托人不再是单一个体或组织,而是具有多重偏好和冲突目标的集合体。于是,人工智能代理人究竟应当对齐谁的目标,又如何在目标冲突中作出选择?
当前,多数研究仍将人工智能对齐视为技术性控制问题,从“代理人问题”切入以解决“技术性错位风险”(如强化学习中的奖励建模、偏好提取、可解释性提升等)。但人工智能对齐任务中更具挑战性的是“委托人问题”(the problem of the principal)。如果说“代理人问题”是技术层面的问题,那么“委托人问题”则是关于人类如何在人机共存的体系中审视现有秩序,确保人类安全和价值的根本性问题。
关于何为人机对齐、对齐目标及应对齐的对象,学界尚未形成普遍共识。 “与谁对齐”“对齐什么”“如何对齐”的三重问题,正是委托人问题。在传统“委托-代理”关系中,委托人通常是具象的个体或组织,委托给代理人执行的目标和意图也定义明确和边界清晰。例如,个人委托房屋中介寻找房源,政府委托中央银行制定和执行货币政策,捐助国委托国际发展银行分配对外援助等。然而,面对关乎人类未来的人工智能系统,“委托人”成为“人类整体”,但“人类”却并非作为一个整体而存在,而是由文化、利益、价值观高度多元的个体和群体构成。除基本生存需求外,个体和群体在自由与安全、发展与公正等各种议题上存在长期分歧。这意味着,对一些“人类”的目标和偏好所进行的“对齐”,对另一些“人类”而言很有可能就是“错位”。
相关问题的争议也出现在关于委托人目标方面。即使在人工智能“直接对齐”领域中已经形成诸如可扩展监督(scalable oversight)、安全评估(如红队测试)、博弈建模和多利益相关者参与等多种技术路径来实现对齐,但这些方法所要求的目标清晰性往往很难实现。由于人工智能的代理任务范围不断扩展,委托授权越来越缺乏明确的边界。同时,问题的复杂性还在于,人工智能应对齐委托人表达出来的意图,还是应对齐推断出来的目标,抑或对齐规范意义上的“应然目标”?不同的回答促成了对齐方向的根本差异。若对“应然目标”进行过度解读,人工智能可能演变为道德教化系统;但若仅对明确表达的目标进行对齐,则可能放任非理性甚至自毁行为。此外,委托人的意图具有时间敏感性和情境依赖性,且可能在与人工智能系统的互动过程中发生摇摆甚至被反向塑造。
当从直接对齐扩展至社会对齐和秩序对齐后,对齐目标更难以清晰化。当对齐目标从个体偏好转向集体偏好后,就不可避免地涉及目标的传递机制、风险的控制架构以及社会的系统性协调。偏好排序和社会加总是一个十分棘手的难题,涉及如何从分散而多样性的个体偏好中提炼出“集体意志”。采取建立在某种特定原则基础上的规范性排序方案,不但在实践中难以达成一致,而且可能在对齐系统中引发原则性冲突。正因如此,人工智能对齐不但可能遭到“技术失败”(technical failure),还可能面临“哲学失败”(philosophical failure)——前者反映工程能力不足,后者则源自人类缺乏价值共识。
委托人问题还有一个重要的方面,那就是当委托人对其目标缺乏明确理解或表达不清时,人工智能系统可能反过来塑造、定义,甚至操控委托人的偏好、利益和行为。这种“反向对齐”风险在传统“委托-代理”关系中不乏例子,而人工智能则可能显著放大这一风险。随着语言模型和情感计算技术的不断进步,人工智能能够通过语言交互、情绪引导和认知诱导等方式影响人类的所思所想。在这种情况下,委托关系的主动性和控制权可能发生转移,演变为一种“傀儡-操控者”关系。
人工智能秩序对齐的国际政治概念框架
“委托人问题”表明,人工智能的秩序对齐必然包含两个阶段:第一阶段涉及人类内部就全球秩序基本原则和目标进行对齐,以国家间的对齐为主,涵盖其他跨国行为体,通过政治协商达成秩序内容的公约数;第二阶段就对齐目标进行操作化,通过技术确保全球各地开发和部署的人工智能系统与秩序目标对齐。两阶段对齐意味着,人工智能秩序对齐的“目标函数”不仅来自技术、理论和哲思,更需要人类的广泛沟通和充分协商加以确立。第一阶段的对齐虽然发生在人类内部,却不应被视为外生于人工智能对齐任务。这意味着人工智能对齐不仅面临技术性挑战,还涉及在利益分配和权力结构基础上,确立并明晰全球秩序的基础性原则和目标。
作为一种加总机制的政治过程。政治的本质是解决相互冲突的利益如何协调共处的问题,可理解为一种对微观层面偏好进行加总以实现宏观层面秩序的机制和过程。作为加总机制,政治不同于市场和暴力。市场是人类文明的重要发明之一,通过独立个体追求效用最大化的微观行为,实现宏观层面资源最优配置。市场秩序依赖价格机制传递信息,个体行为根据价格变化进行决策调整,形成分散化交换而非集中化控制的秩序。市场的前提是能够对个体效用进行排序,在此假定上方能促成基于效用的资源竞争和交换。暴力作为另一种加总机制则完全依赖胁迫和强制,而非自愿交换。暴力通过对个体或群体进行直接威胁,迫使其顺从暴力施加者的意图,将暴力优胜方的目标、利益和意图贯彻下去,实现基于暴力分配的阶序对齐,建立由暴力维系的集中化秩序。
政治的作用在于避免暴力掠夺的风险,同时也在于解决通过市场交换无法进行加总的问题。作为加总机制,政治的独特之处在于通过协商、妥协和共识来达成秩序。通过这些手段,政治在不同利益和价值之间寻找折衷和共识,从而构建社会的集体意图。通过政治参与、政治过程和政治制度,协商和妥协在处理不同偏好、利益和价值之间的差异与冲突时,完成某种加总以促使总体安排框架和大规模秩序得以建立。这种机制不同于市场,国际政治还是国内政治都必须通过某种集体行动的安排来协调冲突利益。无论是基于等级权威还是水平合作,政治都要对利益与目标的差异性和冲突性进行人为协调。政治和暴力之间也具有本质区别,尽管权力竞争在政治过程中占有重要地位,但权力不等于暴力。政治的形式是冲突与合作的结合,权力的运用往往通过冲突来达成合作。但在这一过程中,政治的核心是协商与妥协,权力是达成目标的工具和策略。实际上,权力的作用也正是在协商和妥协中才得以显现。暴力并非权力产生和运行的充分或必要条件;相反,暴力总是在权威和妥协缺失以及政治秩序崩塌时变得普遍和极端。
值得强调的是,政治作为一种加总过程并非完美,通过政治过程进行人工智能秩序对齐也面临诸多挑战。政治过程虽然离不开规范性价值的引导和弥合,但政治加总的结果是经验性而非规范性的。这意味着政治达成的妥协中总是蕴含了改变现状的冲动,这可能使得人工智能系统缺乏稳定的对齐目标。此外,政治加总本身并不能保证达成任何价值或效率标准下的理想结果。在缺乏规范框架的约束时,政治加总结果可能变成由权力实现的利益,从而加剧不平等和不公正。尤其在国际政治中,缺乏公认的权威作为加总结果的最终裁判和调节人,政治容易陷入对权力的渴望和无节制的追求。此外,不同政治制度在排序和加总方式上具有显著差异,这可能导致制度间的冲突。冲突作为寻求妥协的策略之一,也可能会按照自身的逻辑发展到失控状态,导致政治加总的失败。
关于人工智能是否会导致主权国家的削弱或消亡的讨论已然出现,但不可否认的是,世界依然是一个主权国家体系。就人工智能对齐而言,主权国家体系一方面意味着全球秩序的政治协商可以延续国际政治长期实践,已有机制和惯例为这一过程提供了良好的基础。另一方面,民族国家体系意味着全球利益和目标的分割,局部利益和目标的优先性根深蒂固。相较于人工智能与全球秩序整体目标的对齐,人工智能对齐国家自身的目标、利益、价值和原则,既具有优先地位,也更具可行性。如果不考虑人工智能风险的全球性和整体性,也不顾及全球地缘政治的现状和逻辑,人工智能的局部对齐可能成为一种自下而上、从局部到整体、从国家到全球的有效过程和机制。但在现实中,人工智能在局部的完美对齐可能对全球基本秩序和人类文明带来风险。
地缘政治竞争与局部对齐风险。技术始终是大国竞争的工具和对象。当前,国际关系学界对人工智能加剧全球地缘政治竞争风险的问题极为关切,并希望借鉴过去核技术的全球风险管控经验,为这一新兴技术的风险管控提供参考。事实上,核技术能够得到有效管控,主要依赖于多层次、多维度的人类内部的对齐,包括核恐怖的情感对齐、对核技术认知的对齐,以及通过履行核不扩散原则等形式实现的制度对齐。这一案例之所以成功,部分原因是核技术本身缺乏内在目的,且具备能够被防止大规模扩散的高技术门槛和高成本特征,且核技术演化速度较慢。人工智能与核技术存在显著差异,使得表层行为的管控变得更加困难,也决定了其与地缘政治竞争之间具有更加复杂的关系。
在地缘政治的影响下,人工智能的地方和局部对齐本身就可能构成严重的系统性风险。现有人工智能对齐研究聚焦“错位风险”,但在缺乏一个全球层面基本对齐框架的情况下,人工智能在某一局部或国家内实现了所谓“完美对齐”,却可能带来更具灾难性的后果。这一现象可被称为“局部完美对齐风险”(risk of locally perfect alignment)。这种风险的危险性和紧迫性在于,人工智能系统具备将对抗行为以指数级方式放大的能力,尤其体现在对抗的全面性及其后果的严重性。
人工智能的高效对于地缘竞争而言可能是一场噩梦。这可以对比历史上采用“均势”来维系秩序以避免灾难的国际关系实践。“均势”之所以有效,恰恰不在于它是精确计算的状态,而是一种模糊的心理状态,是在威慑和不确定性之间寻求微妙平衡的产物。正是因为由人类组成的国家具有有限理性,行为缓慢且对优势的判断具有模糊性,才在一定程度上避免了大规模冲突的爆发。人工智能系统恰好相反,具备精确计算、极高速度和大规模部署能力,且在目标函数驱动下缺乏人类式的模糊与迟疑。这意味着,一旦局部人工智能系统被赋予竞争性目标,其能力在相互对抗中被无节制释放出来,其反应速度将极大超越人类外交和军事系统的适应能力,可迅速将地区冲突升级为全球性的灾难。在此种情形下,人工智能之间的对抗将不再是人类熟悉的“代理人战争”,而更像是一种陌生而恐怖的“超级代理人战争”。
人类在处理利益冲突时,会在道德规范、人道考量、尊重基本秩序等多重约束下进行权衡,即便是在国家层面的利益最大化策略之中,也往往受到制度和规范的限制,如避免公然使用武力和维持国际共存秩序等。但人工智能系统本质上是目标函数驱动的最优化机制,一旦目标设定明确且对齐充分,其行为将不受传统规范和含糊约束的限制。如果人工智能系统被训练和部署以实现某一特定国家或地区的利益目标,并与其他地区或国家的目标对齐相冲突,这些系统可能以极高的效率和超越人类理性约束的方式,将局部目标最大化地推进,并“扫清”所有阻碍其达成目标的行为和实体。
“局部完美对齐”对全球秩序的深层风险,还在于对国际信任机制产生破坏性影响。任何秩序的维系都建立在一定程度的信任基础上,这种信任来自主体间的认同与共识,即相信体系内的大多数行为体在大多数情境中都将选择遵守秩序,无论这种选择是出于理性计算还是道德认同。因此,即使在缺乏严格监督和强制惩罚机制的情况下,秩序依然可以得到大致维系。但是,在国际关系中,这种信任始终处于结构性张力之中,“遵守秩序的意愿”与“打破秩序的能力”之间的矛盾从未彻底解决。当人工智能被用于地缘政治竞争,与特定国家或地区的目标、利益、价值进行完美对齐,这种张力将被放大,局部目标之间的差异性和不兼容性将被清晰地呈现出来,体系中主体间的信任将难以为继。
局部完美对齐的风险警示我们,人工智能对齐的目标不应限于地方性秩序,而必须指向全球性秩序。人工智能时代的“秩序割据”将导致系统间的深度对立和大规模混乱,而非合作性的多元共存。因此,人工智能系统的对齐必须超越对单一目标的精确最优化,回归对底层秩序原则的认同和嵌入。在全球治理中,秩序往往建立在对最低限度原则的共识基础上,如最小伤害、风险控制性与可逆性,而非对正面价值的完美一致。实际上,全球秩序并非静态而明确的,而是始终具有模糊性和处于动态构建之中。
漫长的国际关系史表明,全球秩序的形成和维持需要在现实与理想、实证与规范之间寻求一种动态平衡。单纯依赖地缘政治现实构建的秩序缺乏普遍合法性,因此不可能保持相对稳定性;而完全无视地缘政治现实、过度理想化的秩序构想则常常在实践中遭遇挫败,难以达成妥协和对现状的维持。因此,人工智能秩序对齐也应在“对齐”和“不对齐”之间,寻求深层、普遍、可协商的政治基础。这种基础不是由算法设定的目标函数,而是通过政治协商和妥协建立的共识规则。只有嵌入这一政治性逻辑,人工智能系统才能规避“局部完美对齐”所带来的灾难性风险,迈向一种更加包容、可持续的全球秩序。
结语
人工智能对齐领域已经逐渐从“直接对齐”扩展至“社会对齐”,即从一个“指令是否被正确执行”的技术工程命题发展至一个关涉社会价值、正义和稳定的命题。本文在此基础上继续拓展,提出“秩序对齐”,将人工智能对齐问题视为关系国际结构、全球秩序和人类未来的重大议题,呼吁加深理解人工智能如何深度介入并重塑我们共处的世界。
人工智能不仅是一项技术,更可能是一个超级代理人,在一个价值多元、利益冲突、信任脆弱的世界中进行决策和采取行动。从“委托-代理”理论来看,人工智能系统的“委托人”并非明确和统一的主体,而是一个处于分裂和博弈中的国际社会。因此,秩序对齐是一个“二阶段对齐模型”。人工智能系统注定将在跨越国界、打破物理限制的空间中运行。如果它们对齐的是封闭性的国家利益或单一性价值观,而非具备包容性、正义性与可持续性的秩序理念,所带来的将不是进步而是失控。单一国家或局部群体的“完美对齐”并不能带来全球安全,反而可能放大矛盾、加剧冲突,构成“局部对齐的系统性风险”。面对这样的现实,对齐不能止步于对具体目标的优化,而必须纳入全球秩序的基本原则和合作精神。换言之,秩序对齐的任务,不是寻找一套普适目标让人工智能去追随,而是构建一套能在差异中维持合作、在冲突中促进理解、在不确定中保持韧性的规范框架。
人工智能对齐是一项以全球秩序为导向的政治议题,也是一项以共同命运为前提的人文实践。它不仅要求技术上的努力和治理上的合作,更需要一种深切的理解,即我们是在一个彼此差异但又共享未来的世界中,追求共同生存和共同发展的可能性。对齐问题的真正挑战,在于如何让人工智能系统不仅聪明,而且值得信赖;不仅高效,而且能够守护人类最基本的共同利益和共同精神。
原文链接:庞珣|全球秩序与人工智能对齐——超越技术问题的国际关系理论视角(《学术前沿》杂志2025年第9期)
转载本网文章请注明出处