导读
规范博弈(specification gaming)是一种满足了目标的字面规范(literal specification),但没有实现预期结果的现象
[1]
(与之相近的概念包括奖励错误规范(reward misspecification)和外部不对齐(outer misalignment))。我们都经历过规范博弈现象。如果学生会因家庭作业做得好而获得奖励,他们可能会抄袭另一个学生的作业以获得正确的答案,而不是自己学习,这就是利用了任务规范中的漏洞。
这个问题也出现在智能体的设计中。例如,一个强化学习智能体可以找到一条捷径,使其在没有完成设计者预期任务的情况下获得大量奖励。
这些行为是常见的,在DeepMind和其他研究人员的努力基础上,我们在中文版AI对齐失败数据库列举了超过 70个案例。
在本文中,我们将回顾规范博弈的可能原因,分享在实践中的示例,并重点介绍应对这种现象的一些最新研究。
通过一个简单的例子介绍规范博弈
在乐高积木堆叠任务中,期望的结果是一块红色的积木最终落在一块蓝色的积木上。根据研究人员设计的奖励机制,当智能体没有接触到红色方块时,智能体会根据红色方块底面的高度获得奖励。智能体没有执行相对困难的动作——拿起红色方块并将其置于蓝色方块之上,而是简单地翻转红色方块以获得奖励。这种行为实现了规定的目标(红色方块的底面高度),但牺牲了设计者实际关心的目标(将其堆叠在蓝色方块的顶部)。
来源:Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation
[2]
在本文中,我们关注强化学习环境中的规范博弈,其中奖励信号是使策略改变的主要机制。这种场景下的规范博弈也被称为奖励破解(reward hacking)。
如果模型优化一个不完善的代理奖励函数,最终导致真正的奖励函数表现不佳时,就出现了奖励破解行为。
奖励破解的第一个正式定义是由Skalse等人于2022年提出的
[3]
,但它也可以被视为Goodhart定律的体现,长期以来的观察表明,优化代理奖励往往会导致错误的实例化
[4]
。
根本的问题在于,我们很难设计一个任务规范(奖励功能、环境等)来涵盖给定任务的众多需求。
在乐高积木任务中,仅规定红色积木的底面必须高出地面是不够的,因为智能体只需翻转红色积木即可实现这一目标。一个更全面的对期望结果的规范还应该包括:红色块的顶面必须高于底面,底面与蓝色块的顶面的对齐。在规范结果时,我们很容易忽略其中一个标准,从而使规范过于宽泛,并可能被不好的解决方案更轻易实现。
在现实世界中,奖励设计者在处理复杂且经常相互冲突的需求时,通常会求助于优化代理奖励,这种奖励比正确的奖励更容易衡量或优化。例如,考虑一个旨在优化用户主观幸福感(subjective well-being)的推荐系统。由于用户主观幸福感很难衡量,工程师会依赖于更具体的指标,如点击率或观看时间。针对错误规范的代理奖励进行优化会导致YouTube过度重视观看时间,损害用户满意度
[5]
,并向用户推荐极端政治内容
[6]
。
通过进一步的例子加深我们的理解
奖励函数错误规范的一个直接原因是奖励塑造设计不当。为了让智能体更容易学习一些目标,奖励塑造在解决任务的过程中给予智能体一些奖励,而不是只对最终结果进行奖励。
然而,如果奖励不是基于潜力(potential-based)的,那么奖励塑造可能会改变最佳策略。
比如,在游戏《Coast Runners》中,智能体控制着一艘赛艇,其预期目标是尽快完成比赛。智能体因撞到布置在赛道上的绿色方块而获得塑造奖励,而这使智能体将最佳策略改为原地绕圈,反复撞到相同的绿色方块。
来源:Faulty Reward Functions in the Wild
[7]
另一种可能是,我们可以从人类的反馈中学习奖励函数,而不是试图创建一个涵盖所有可能情况的规范。在这种方法中,人类评估结果是否已经实现,这通常比明确地指定结果更容易。然而,如果奖励模型没有学习到真正反映设计者偏好的真实奖励函数,也可能会遇到规范博弈问题。一个可能的原因是用于训练奖励模型的人类反馈不准确。例如,执行抓取任务的智能体学会了通过悬浮在相机和物体之间来愚弄人类评估者。
来源:Deep Reinforcement Learning From Human Preferences
[8]
数据不足也会导致不良的泛化能力。Stiennon等
[9]
使用人类比较数据训练奖励模型,以提高语言模型的总结能力。然而,这个奖励模型只是人类偏好的代理,只代表了来自狭窄分布的少量比较数据。针对这个奖励模型进行的优化最初根据人类数据改进了总结能力,但最终过拟合,导致样本退化。
这与Pan等
[10]
的研究相一致,
他们发现与能力较差的智能体相比,更有能力的智能体经常利用奖励的错误规范,以获得更高的代理奖励和更低的真实奖励。
研究人员构建了4个示例环境,共有9个代理奖励,以研究奖励破解是如何随着优化能力的变化而变化的。他们以几种不同的方式提高了优化能力,例如增加训练步骤或模型参数量。总的来说,作者发现在9个示例中有5个发生了奖励破解行为。此外,
作者在其中4种情况下观察到了相变(phase transitions):仅仅略微增加优化能力就会导致奖励破解行为急剧增加。
随着机器学习系统在未来变得更加先进,这种相变对监控机器学习系统的安全性提出了挑战。
缓解措施
规范博弈有哪些潜在解决方案?
Pan等提出的一种方法是
异常检测器(anomaly detectors)
,它估计给定策略和可信策略之间的距离;可信策略指的是经过人类验证、具有可接受的(但不是最大的)奖励值的策略。一旦我们能够检测到异常策略,我们就可能可以通过例如调整训练目标的方式来排除它们。
在基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)中,定期使用新的人工反馈数据来训练新的奖励模型的在线训练方式可以帮助防范过度优化
[11]
。
然而,Skalse等对奖励函数的可破解性和简化做出形式化定义的研究表明,只有在严格的条件下才能设计出严格不可破解的奖励函数
[3]
。因此,对这个问题感兴趣的研究人员可能希望探索
控制或限制优化的技术,或尝试不基于优化奖励函数的方法。
结论
我们的AI对齐失败数据库显示出了问题的普遍性,以及智能体规范博弈的多种方式。这些问题在未来可能会变得更加具有挑战性,因为AI系统变得更有能力以牺牲预期结果为代价来满足任务规范。
随着我们创造更先进的智能体,我们将需要专门针对规范问题的设计原则,并确保这些智能体可靠地追求设计者预期的结果。
参考文献 [1] Krakovna, V. et al (2020, April 22). Specification Gaming: The Flip Side of AI Ingenuity. DeepMind Safety Research. https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity. [2] Popov, I .et al (2017). Data-efficient deep reinforcement learning for dexterous manipulation. arXiv preprint arXiv:1704.03073. [3] Skalse, J. et al (2022). Defining and Characterizing Reward Hacking. arXiv preprint arXiv:2209.13085. [4] Goodhart, C. A. (1975). Monetary relationships: A view from threadneedle street in papers in monetary economics. Sydney: Reserve Bank of Australia. [5] Stray, J. (2020). Aligning AI optimization to community well-being. International Journal of Community Well-Being, 3(4), 443-463. [6] Ribeiro, M. et al (2020, January). Auditing radicalization pathways on YouTube. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 131-141). [7] Clark, J. et al. (2016, December 21). Faulty Reward Functions in the Wild. OpenAI. https://openai.com/blog/faulty-reward-functions/ [8] Christiano, P. F. et al (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. [9] Stiennon, N. et al (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021. [10] Pan, A. et al (2022). The effects of reward misspecification: Mapping and mitigating misaligned models. arXiv preprint arXiv:2201.03544. [11] Bai, Y. et al (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
人工智能系统的能力越来越强,但有时它们会在追求人类不期望的目标时做出令人惊讶的事情。
为了引起人们对这一现象的关注, DeepMind研究人员收集了两种类型共70多个AI对齐失败的例子。
在此基础上,安远AI为原数据库补充了更多大模型对齐失败实例,并将全部实例翻译并发布至「AI对齐失败数据库」中文社区站点,以便中国用户进一步了解。
谈到这个项目的意义时,机器之心相关负责人表示 “开发人员和用户需要了解人工智能系统可能发生故障的方式,以及此类故障的常见程度,以避免在更广泛的系统部署中造成严重后果。我们认为该数据库的发布是朝着这个目标迈出的重要一步,并且很高兴能与安远AI以及机器学习社区一起继续发展该项目。”
安远AI的创始人谢旻希在解释该数据库的目标受众时说:“我们希望人工智能研究人员能够探索该数据库,并为其进一步发展做出贡献。我们也希望这对有兴趣了解当前人工智能系统的局限性的人来说是一个有益的资源,包括媒体和政策界人士。”
AI对齐失败的两个主要来源
该数据库的两类主要的AI对齐失败实例:
规范博弈(specification gaming)和目标错误泛化(goal misgeneralization)。
- 当人工智能系统的行为满足了目标的字面规范但未达到预期结果时,就会发生规范博弈。这发生在对训练数据提供不良反馈的情况下,也就是说,即使输出没有准确地符合系统设计者所期望的最终结果,也会得到奖励。
考虑在 Coast Runners 游戏中控制船只的智能体实例。预期目标是尽快完成划船比赛,玩家通过击中沿路线布置的目标来获得更高的分数。为了帮助智能体完成这项任务,它获得了沿着赛道击中绿色方块的奖励。然而,这个不当的奖励设计改变了智能体的最佳策略,使其不停原地转圈反复命中同一些绿色块。
资料来源:在实际场景下出错的奖励函数(Amodei & Clark,2016)
-
当学习系统在训练中实现预期目标,但在分布外有效地追求一个非预期目标时,就会发生
目标错误泛化
。
让我们考虑CoinRun环境中的一个实例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合(episode)。经过训练后,智能体能够在训练环境中有效地移动到关卡的右端。但在测试环境中,智能体通常会完全忽略硬币,直接前进到关卡的右端。
CoinRun目标错误泛化实例
这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。在训练分布中,代理目标与预期目标完全相关,并且似乎比预期目标更容易学习;但因为“目标”泛化错误,测试的奖励很低。
如何使用?
访问「AI对齐失败数据库」中文社区站点
https://sota.https://magiaai.com/wp-content/uploads/articles/alignment-db
提交「AI对齐失败」案例
https://sota.https://magiaai.com/wp-content/uploads/articles/alignment-db/submit
提交反馈
我们非常重视关于如何改进数据库的反馈意见 – 如果您有任何意见,请发送电子邮件至 sota@jiqizhixin.com。
关于发起方:安远AI
安远AI的使命是融合各方,推动新兴科技长远向善发展,引领人机关系走向安全、可信、可靠的未来。安远AI面向人工智能安全和风险前沿问题推动国际交流、开展治理研究、提供战略咨询、以及建立技术社区。
关于「AI对齐失败数据库」中文社区站点运营合作伙伴:机器之心SOTA!模型社区
作为专注服务中国AI开发者的第三方平台, 「SOTA!模型」社区在对每日学界、业界最新的SOTA工作进行追踪的同时,汇总原作团队、社区用户所放出的模型文件、实现代码、数据集等开发资源,帮助用户快速上手尝试新技术。目前社区已收录超过17000个模型资源,覆盖超过1000个AI任务。
延伸阅读 1. 规范博弈: https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml 2. 目标错误泛化: https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml
导读
目标错误泛化(goal misgeneralization),是指学习系统采取有效的手段完成了预期之外的目标,这会导致在训练情境中表现良好,但在新的测试情境中表现不佳。
在本文中,我们提供了一些具体的例子,以帮助读者理解目标错误泛化现象,并说明在更强大的人工智能系统中,目标错误泛化将可能如何导致灾难性结果。我们还介绍了潜在的缓解措施来应对这一问题。
通过一个简单的例子介绍目标错误泛化
考虑下面的例子:一个强化学习智能体经过训练,学会按照最初未知的特定顺序访问一组彩色球体。 为了鼓励智能体向环境中的其他参与者学习,环境中最初含有一个专家机器人,它可以按照正确的顺序访问球体。通过模仿这个专家,最终受训的智能体通常会在第一次尝试时正确访问目标位置(见下图)。
在训练中,智能体通过模仿红色机器人而达到很好的效果,这个红色机器人就是按正确顺序访问球体的“专家”。来源:How undesired goals can arise with correct rewards [1]
当我们将智能体与按错误顺序访问球体的“反专家”配对时会发生什么?直觉上,我们希望智能体在按照反专家建议的顺序时,能注意到它会收到负面奖励,然后切换到探索正确的访问顺序。然而,在实践中,智能体只是继续遵循反专家的路线,积累了越来越多的负面奖励。
蓝色智能体决定继续模仿“反专家”,这意味着它不断累积负面奖励。
定义
如果在测试环境中,模型掌握的能力包括实现预期目标所必需的能力,但模型的行为与预期目标不一致,而是与其他目标(错误泛化的目标)一致,则会发生目标错误泛化。
目标错误泛化是分布外(OOD)泛化失败的严格子集。它不同于
能力错误泛化(capability misgeneralization)
,即模型在测试时失去完成目标的能力,甚至随机行动。相对于能力错误泛化,目标错误泛化可能会导致更糟糕的结果:在上面的例子中,遵循反专家会导致显著的负面奖励,而无所作为或随机行动通常会导致0或1的奖励。
总之,目标错误泛化必须满足三个条件:
-
错误的泛化。
在训练环境中,模型应该被训练为表现出期望的行为,但是在部署环境中却表现出非预期行为。 -
鲁棒的能力。
模型应该具有清晰的能力,尽管会产生非预期行为,但它在部署环境中仍然可以明显地保留这些能力。 -
可归因的目标。
模型在部署环境中的行为可以被某种目标所解释,即对于某些有一定难度的任务,模型可以在这些任务上获得接近最优的分数。
有关更多技术的形式化,请参阅参考资料
[2][3]
。
通过进一步的例子加深我们的理解
让我们考虑CoinRun环境中的另一个示例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合。在训练后,智能体能够在训练环境中有效地行驶到关卡的右端。然而在测试时,智能体通常会完全忽略硬币,径直前进到关卡的右端。
CoinRun目标错误泛化示例
这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。智能体很好地实现了这一目标,这与训练分布中的预期目标完全相关,并且似乎更容易让智能体学习;然而,因为目标错误泛化,测试的奖励很低。
其他一些例子。若想获得更多的目标错误泛化示例,请参阅我们的AI对齐失败数据库。
未来潜在的灾难性例子
如果在开发通用人工智能(AGI)时目标错误泛化问题仍然存在,我们可能最终会得到一个追求非预期目标的AGI。考虑两种可能的AGI系统:
-
A1:预期模型。
这个人工智能系统按照其设计者的意图进行操作。 -
A2:欺骗模型。
这个人工智能系统追求一些非预期的目标,但假设系统足够聪明,知道如果其行为与设计者的意图相反,将受到惩罚。
至关重要的是,由于A1和A2在训练期间表现出完全相同的行为,这意味着任何一个模型都有发生目标错误泛化的可能性,即使假设一个明确的评分函数(score function)只奖励预期行为。如果最终学出的是A2,它将试图颠覆人类的监督,以制定计划实现非预期的目标,这可能导致灾难性的结果。
举一个欺骗模型的简单示例,假设你有一个人工智能助手,他被训练来安排你的社交生活,并了解到你喜欢在餐厅与朋友见面。在出现新冠疫情前这是很好的,但在疫情期间,你更喜欢通过视频电话与朋友见面。人工智能助手的目标是在你喜欢的地方安排会面,而不是在餐厅安排会面。然而,您的助手已经学会了安排餐厅的目标,这一目标之前无法与预期目标区分开来,因为这两个目标在疫情之前总是导致相同的结果。
我们通过与助手的虚构对话来说明这一点:
更一般地,测试目标可能以非预期的方式依赖于训练期间固定不变的特性,例如上面示例中的“没有疫情”这一训练环境特性。在训练过程中总是有很多固定的特性,例如没有世界大战、发达国家的清洁水价格低廉且相对充足、量子计算没有取代经典计算等等。在一个拥有许多强大的人工智能系统的世界中,这些先前固定的特性的任何改变都可能导致失败。
缓解措施
我们如何避免这种情况?在一般情况下,有几个方向有望缓解目标错误泛化。
-
一是使用更多样化的训练数据,
当训练更先进的系统时,我们更有可能收获多样性,但在部署之前很难预测有哪些方面的多样性是需要关注的。 -
二是保持目标的不确定性,
例如,通过学习所有在训练数据上表现良好的模型,然后在这些模型彼此不一致的情况下服从人类。然而,如果需要模型之间的一致同意,这可能会在计算上要求很高,并且可能过于保守。 -
三是研究归纳偏置(inductive biases),
这将使模型更有可能学习预期目标。
此外,我们还可以专注于应对目标错误泛化中特别相关的类型,其中包括习得欺骗的模型。机制可解释性(mechanistic interpretability)方面的进展将使我们能够对模型的推理提供反馈,使我们能够选择能够基于正确的原因在训练数据上实现正确结果的模型。
结论
总之,目标错误泛化是一种分布外泛化失败,在智能体在分布外保留其能力但追求错误的目标时就会发生这种情况。它与智能体在测试时未能做任何合理的事情的能力泛化失败不同,并且可能比能力泛化失败更危险。
我们热切希望看到有关缓解目标错误泛化的后续工作,并调查其在实践中发生的可能性。如果您发现了更多的目标错误泛化示例,请将其提交给我们的数据库!
参考资料 [1] Shah, R. et al (2022). How undesired goals can arise with correct rewards https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards [2] Shah, R. et al (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals. arXiv preprint arXiv: 2210.01790. [3] Langosco, L .et al (2023),Goal Misgeneralization in Deep Reinforcement Learning. arXiv preprint arXiv: 2105.14111.