揭秘OpenAI的野心: 让AI为你搞定一切

  • 2025-08-05 13:30:16
  • 310

2022年,亨特・莱特曼以研究员身份加入OpenAI后不久,便见证了同事们推出ChatGPT——这款产品后来成为史上增长最快的产品之一。与此同时,莱特曼则在一个团队中默默耕耘,致力于教OpenAI的模型解决高中数学竞赛题。

如今,这个名为MathGen的团队被视为OpenAI打造AI推理模型这一行业领先举措的关键力量,而AI推理模型正是能像人类一样在电脑上完成任务的AI代理的核心技术。

“我们当时试图让模型在数学推理方面做得更好,因为那时它们在这方面还很薄弱,”莱特曼在描述MathGen早期工作时对TechCrunch表示。

OpenAI的模型如今远非完美——该公司最新的AI系统仍会出现幻觉,其代理在处理复杂任务时也力不从心。

但它的最先进模型在数学推理方面已有显著进步。OpenAI的一款模型最近在国际数学奥林匹克竞赛(一项面向全球最聪明高中生的数学竞赛)中斩获金牌。OpenAI认为,这些推理能力将迁移到其他学科,最终为该公司一直梦寐以求的通用代理提供动力。

ChatGPT的诞生纯属意外——一次低调的研究预览意外走红,演变成消费级业务——但OpenAI的代理是该公司多年来精心努力的成果。

“最终,你只需向电脑提出需求,它就会为你完成所有这些任务,”OpenAI首席执行官山姆・奥特曼在2023年公司首届开发者大会上表示。“这些能力在AI领域通常被称为代理。其带来的好处将是巨大的。”

这些代理能否实现奥特曼的愿景仍有待观察,但OpenAI在2024年秋季推出首个AI推理模型o1时,震惊了世界。不到一年后,促成这一突破的21名基础研究员成为硅谷最炙手可热的人才。

马克・扎克伯格招募了5名参与o1研发的研究员,让他们加入Meta新成立的专注于超级智能的部门,并为部分人提供了超过1亿美元的薪酬方案。其中之一的赵胜佳最近被任命为Meta超级智能实验室的首席科学家。

强化学习的复兴

OpenAI推理模型和代理的崛起与一种名为强化学习(RL)的机器学习训练技术息息相关。强化学习在模拟环境中向AI模型反馈其选择是否正确。

强化学习已应用数十年。例如,2016年,在OpenAI于2015年成立约一年后,谷歌DeepMind使用强化学习创建的AI系统AlphaGo在围棋比赛中击败世界冠军,引发全球关注。

大约在那时,OpenAI的首批员工之一安德烈・卡帕西开始思考如何利用强化学习创建一个能使用电脑的AI代理。但OpenAI花了数年时间才开发出必要的模型和训练技术。

到2018年,OpenAI在GPT系列中率先推出首个大型语言模型,该模型在海量互联网数据和大型GPU集群上进行预训练。GPT模型在文本处理方面表现出色,最终催生出ChatGPT,但在基础数学方面却存在短板。

直到2023年,OpenAI才取得突破,最初将其命名为“Q*”,后又改称“Strawberry”。这一突破通过结合大型语言模型、强化学习和一种名为测试时计算的技术实现。后者让模型在给出答案前,有额外的时间和计算能力来规划和解决问题,并验证每一步骤。

这使得OpenAI能够引入一种名为“思维链”(CoT)的新方法,该方法提高了AI在处理未见过的数学问题时的表现。

“我能看到模型开始进行推理,”埃尔・基什基说。“它会发现错误并回溯,还会‘感到沮丧’。这真的就像在阅读一个人的想法。”

尽管这些技术本身并非新颖,但OpenAI独特地将它们结合起来,创建了Strawberry,这直接促成了o1的开发。OpenAI很快意识到,AI推理模型的规划和事实核查能力可用于为AI代理提供动力。

“我们解决了一个我多年来一直冥思苦想的问题,”莱特曼说。“这是我研究生涯中最激动人心的时刻之一。”

扩展推理能力

凭借AI推理模型,OpenAI确定了两个可用于改进AI模型的新方向:在AI模型的后期训练中使用更多计算能力,以及让AI模型在回答问题时有更多时间和处理能力。

“作为一家公司,OpenAI不仅关注事物的现状,还非常关注它们的扩展方式,”莱特曼说。

两位消息人士告诉TechCrunch,在2023年Strawberry取得突破后不久,OpenAI成立了一个由研究员丹尼尔・塞尔萨姆领导的“代理”团队,以在这一新范式上取得进一步进展。尽管该团队名为“代理”,但OpenAI最初并未像我们如今所想的那样区分推理模型和代理。该公司只是想让AI系统能够完成复杂任务。

最终,塞尔萨姆领导的代理团队的工作成为开发o1推理模型这一更大项目的一部分,该项目的负责人包括OpenAI联合创始人伊利亚・萨茨凯弗、首席研究官马克・陈和首席科学家雅各布・帕乔基。

OpenAI必须投入宝贵的资源——主要是人才和GPU——来开发o1。纵观OpenAI的历史,研究人员必须与公司领导层协商以获取资源,而展示突破性成果是确保获得资源的可靠方法。

“OpenAI的核心特点之一是,研究方面的一切都是自下而上的,”莱特曼说。“当我们展示(o1的)证据时,公司表示‘这很有意义,让我们继续推进’。”

一些前员工表示,这家初创公司开发通用人工智能(AGI)的使命是在AI推理模型方面取得突破的关键因素。通过专注于开发尽可能智能的AI模型,而非产品,OpenAI能够将o1置于其他工作之上。而在竞争激烈的AI实验室中,对这类想法进行如此大规模的投资并非总能实现。

事实证明,尝试新训练方法的决定是有先见之明的。到2024年底,几家领先的AI实验室开始发现,通过传统预训练扩展创建的模型回报递减。如今,AI领域的大部分动力来自推理模型的进步。

AI“推理”意味着什么?

在很多方面,AI研究的目标是用计算机重现人类智能。自o1推出以来,ChatGPT的用户体验中充满了更像人类的功能,如“思考”和“推理”。

当被问及OpenAI的模型是否真正在推理时,埃尔・基什基有所保留,称他从计算机科学的角度看待这个概念。

“我们正在教模型如何高效地消耗计算资源来获取答案。所以如果你从这个角度定义,是的,它正在推理,”埃尔・基什基说。

莱特曼则更关注模型的结果,而不太在意其方式或与人类大脑的关系。

“如果模型正在做困难的事情,那么它正在做完成这件事所必需的任何近似推理,”莱特曼说。“我们可以称之为推理,因为它看起来像这些推理轨迹,但这一切都只是为了打造对很多人来说真正强大且有用的AI工具的一种替代说法。”

OpenAI的研究人员指出,人们可能不同意他们对推理的命名或定义——当然,批评者已经出现——但他们认为,这不如其模型的能力重要。其他AI研究人员也倾向于认同这一点。

非营利组织AI2的AI研究员内森・兰伯特在一篇博文中将AI推理模式比作飞机。他说,两者都是受自然启发的人造系统——分别受人类推理和鸟类飞行启发——但它们通过完全不同的机制运作。这并不会降低它们的有用性,也不会削弱它们实现类似结果的能力。

来自OpenAI、Anthropic和谷歌DeepMind的一群AI研究人员在最近的一份立场文件中一致认为,如今人们对AI推理模型的理解还不够深入,需要更多的研究。现在就断言这些模型内部到底在发生什么,可能还为时过早。

下一个前沿:用于主观任务的AI代理

如今市场上的AI代理在定义明确、可验证的领域(如编码)表现最佳。OpenAI的Codex代理旨在帮助软件工程师分担简单的编码任务。与此同时,Anthropic的模型在Cursor和ClaudeCode等AI编码工具中特别受欢迎——这些是人们愿意付费使用的首批AI代理中的一部分。

然而,像OpenAI的ChatGPT代理和Perplexity的Comet这样的通用AI代理,在处理许多人们希望自动化的复杂、主观任务时却力不从心。我发现,当尝试使用这些工具进行网上购物或寻找长期停车位时,这些代理花费的时间比我预期的要长,而且还会犯一些愚蠢的错误。

当被问及代理在主观任务方面的局限性时,莱特曼说:“与机器学习中的许多问题一样,这是一个数据问题。我现在真正感到兴奋的一些研究是,想办法在可验证性较低的任务上进行训练。我们在如何做这些事情上有了一些线索。”

帮助创建国际数学奥林匹克模型和o1的OpenAI研究员诺姆・布朗告诉TechCrunch,OpenAI拥有新的通用强化学习技术,这些技术使他们能够教授AI模型那些不易验证的技能。他说,该公司正是通过这种方式构建了在国际数学奥林匹克竞赛中获得金牌的模型。

OpenAI的国际数学奥林匹克模型是一个较新的AI系统,它能生成多个代理,这些代理随后同时探索多个想法,然后选择最佳答案。这类AI模型正变得越来越受欢迎;谷歌和xAI最近也发布了使用这种技术的最先进模型。

“我认为这些模型在数学方面的能力会越来越强,而且在其他推理领域也会变得更有能力,”布朗说。“进步速度快得惊人。我没有理由认为它会放缓。”

这些技术可能有助于提高OpenAI模型的性能,而这些进步可能会在该公司即将推出的GPT-5模型中体现出来。OpenAI希望通过推出GPT-5来巩固其对竞争对手的优势,理想情况下,为开发者和消费者提供最优秀的AI模型来驱动代理。

但该公司也希望使其产品更易于使用。埃尔・基什基表示,OpenAI希望开发出能直观理解用户需求的AI代理,而无需用户选择特定设置。他说,OpenAI的目标是构建这样的AI系统:知道何时调用特定工具,以及需要推理多长时间。

这些想法描绘出ChatGPT终极版本的图景:一个能在互联网上为你做任何事情,并理解你希望如何去做的代理。这与如今的ChatGPT有很大不同,但该公司的研究正朝着这个方向稳步前进。

虽然OpenAI无疑在几年前引领了AI行业,但如今该公司面临着一大批强劲的对手。问题不再仅仅是OpenAI能否实现其代理化的未来,而是该公司能否在谷歌、Anthropic、xAI或Meta之前做到这一点?