一天之内，OpenAI有三件大事发生

1,864 0

一、德扑 AI 作者 Noam Brown 加入 OpenAI

伴随大

语言模型

的持续火爆，利用其构建 AI 智能体的研究陆续进入人们的视线。

游戏 AI 和大

语言模型

的强强联合，会带来新的突破吗？不久前，Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部会非常感兴趣并认真讨论。前两天，一位 OpenAI 内部员工撰写了一篇关于 AI 智能体的博客，也让人们对「大模型智能体」有了更加深刻的理解。

同时也看得出来，为了尽

快推

动这方面的研究进展，OpenAI 也在努力招揽人才，组建更强大的研究团队。

今天，德扑 AI 作者 Noam Brown 在推特上宣布，自己已经加入 OpenAI，将专注于通用的

强化学习

研究，目标是打造比 GPT-4 好 1000 倍的大

语言模型

。

「我很高兴地告诉大家，我已经加入了 OpenAI！多年来，我一直研究 AI 在扑克和 Diplomacy 等游戏中的自博弈和推理。现在我将研究如何使这些方法真正通用。如果成功的话，我们有一天可能会看到比 GPT-4 好 1000 倍的 LLM。」

此前，Noam Brown 致力于结合计算

博弈论

和

机器学习

来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统，其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的关注度。

2017 年，Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《Science》杂志，与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-

Infor

mation Games》也获得了 NIPS 2017 最佳论文奖。Noam 团队还因此获得了 IJCAI 颁发的第二枚马文・明斯基奖章（Marvin Minsky Medal）。

2019 年 7 月，在无限制德州扑克六人对决的比赛中，Noam Brown 和团队开发的德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 实现了前辈 Libratus（冷扑大师）未能完成的任务，再次等登上了《Science》杂志。

2020 年 9 月，Noam Brown 完成 CMU 博士论文答辩，并公开了长达 230 页的超硬核博士论文《大型对抗性不

完美信息博弈

的均衡发现》。在该论文中，Noam Brown 详述了大型对抗性不

完美信息博弈

中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家，而这正是几十年来 AI 和

博弈论

领域一直存在的重大挑战性难题。

获得博士学位之后，Noam Brown 加入当时的 Facebook

人工智能

研究中心任研究科学家，致力于多智能体

人工智能

的研究。

关于加入 OpenAI 后的未来，Noam 有很多的设想：

2016 年，AlphaGo 击败了李世石，是

人工智能

的一个里程碑，其中的关键是 AI 在每一步棋之前都要「思考」1 分钟的能力。这对它的提升有多大影响呢？对于 AlphaGoZero 来说，这相当于将预训练扩大了约 100,000 倍。

同样在 2016 年，我在扑克中观察到了类似的现象。这一洞察最终使得 Libratus 扑克 AI 首次击败了顶级人类玩家。后来，Andy L. Jones 在 Hex 中详细调查了训练时间 / 测试时间的计算 tradeoff，也发现了类似的模式。

此前所有这些的方法都是针对游戏的，而如果我们能发现一个通用的版本，意义可能是巨大的。是的，可能推理会慢 1000 倍，可能成本更高。但如果是发现一种新的癌症药物，或者证明黎曼假设，我们会在意支付多少推理成本吗？

改进能力总是有风险的，如果这项研究成功了，它对安全研究也是有价值的。想象一下，能够在推理上花费 100 万美元，看看能力更强的未来模型可能是什么样子。

如果你对这个或类似的问题感兴趣，加入我们吧。早在 2012 年，我就从金融业过渡到了

人工智能

，这是我做出过的最好的决定。伴随整个 AI 领域的颠覆，现在是一个特别好的开始时间。

Noam 的设想获得了很多 AI 领域专家的赞同，英伟达高级 AI 科学家 Jim Fan 也在推特表达了自己对于游戏 AI 与 LLM 相结合的期许：

我相信下一代的 LLM 将大量借鉴十年以来游戏 AI 研究的成果。

一、Libratus 扑克 AI 的创造者 Noam Brown 加入 OpenAI ；

二、Demis Hassabis 表示，

DeepMind

Gemini 将从 AlphaGo 中汲取技术。

这些举动是很有意义的。像自博弈（训练）和树形搜索（推理）这样的方法已经帮助机器在

围棋

、扑克、Dota 和星际争霸等游戏中击败人类冠军，它们以一种高度可扩展的方式提高了模型的推理能力。

我们已经看到这种想法被添加到 LLM 的武器库中 ——Voyager 是一种推理时间算法，它使智能体能够不断地编写代码，并在 Minecraft 中引导其技能。思维树（Tree of Thought）将搜索与 LLM 的上下文能力相结合，以提高推理能力。相信之后还有更多的研究出现。

这条推文中提到的「Demis Hassabis 观点」源自 6 月底的一篇《连线》采访。当时，Google

DeepMind

的联合创始人兼首席执行官 Demis Hassabis 表示，Gemini 将结合 AlphaGo 的技术与大

语言模型

的能力，赋予系统更强的

规划

或解决问题的能力，将比 OpenAI 的 GPT-4 更加强大。Gemini 的开发目前还在进行中，预计需要数月的时间，并可能耗资数千万甚至数亿美元。