从空调到飞机:物理世界AGI的进阶之路,P-1 AI的硬核探索

发布时间:2025-05-29 23:35  浏览量:4

在红杉资本的最新一期播客中,主持人Sonya Huang 和 Pat Grady ,邀请到前空客CTO Paul Eremenko。分享了从住宅冷却系统到飞机设计,详解智能体 Archie 如何将工程任务拆解为基础模块,并通过融合多AI模型的联邦式方法实现目标:让初级工程能力逐步进化至能设计超越人类想象的工程AGI。以下为对谈实录:

Sonya Huang:Paul,非常感谢你今天能加入我们节目,很高兴你和你的比格小狗 Lee 一起出镜。欢迎你们!首先请谈谈,我们刚举办完AI 峰会AI Ascent。在大会上,Jeff Dean 提到氛围编程的潜力,以及通过 AI在未来一年左右就能出现一个 24/7 全天候工作的初级软件工程师。所以看起来软件工程现在真的正经历一个垂直起飞般的时刻。你认为物理工程领域现状如何?

Paul Eremenko:简单来说,进展有限。我们创立 P-1 AI 的原因之一,是我从小痴迷硬科幻,科幻承诺AI会帮我们建造物理世界,最终实现星际飞船和戴森球。等到深度学习革命兴起时,我曾追问谁在研发这类AI,结果发现无人涉足,基础实验室甚至未将其列入议程。几年过去了,直到现在 2025 年,情况依然如此。所以我们就在思考为什么会这样,稍后可以聊聊其中原因。而我们认为,目前已经找到部分解决方案,正推动其商业化落地。

顺带一提,Jeff也是我们公司的天使投资人。编程AI 准备了很久才到来,我的联合创始人 Susmit Jha 早在 2011 年就以程序合成为题完成了他的博士论文。所以这项技术并不新颖,只是现在才找到了产品市场契合点,找到了合适的包装方式、商业模式和定价模式。物理AI受益于编程AI的研究积累,程序化革命已经实现,在展示你的物理系同时,你可以使用一些程序综合类技术,来创建物理设计。所以我们不需要再花十年或者十五年,我们觉得今年就能整合这些技术模块,并且希望最早明年就能找到产品市场契合点。

Pat Grady:我们能深入聊聊这个吗?你刚提到那些技术模块都包括哪些?需要哪些组成部分,这些才能实现?

Paul Eremenko:最大的一个要素是,还是回到我过去几年来一直在问的那个问题,为什么没有人在研究用于建造物理世界的AI?答案就是训练数据。从根本上讲,如果想要一个 AI 工程师来设计一架飞机或者改装一架飞机,会问它:“如果我把 A320 的机翼面积增加10%会怎样?” 要回答这个问题,模型理想情况下需要在数以百万计的飞机设计上进行训练。而自莱特兄弟以来,人类设计的飞机总数还远没到几百万架。即使奇迹般地能拿到所有这些设计,实际上也拿不到,如果他们都以连贯的方式建模语义上统一的方式,但就算在理论上如此,自航空诞生以来可能也只有一千种设计,远远不够训练一个大模型。

所以对我们来说最基础的技术模块,就是创建训练数据集,它是合成的,基于物理学原理,并考虑供应链因素的假设性设计。可能是飞机,也可能是其他领域。我们要让它足够庞大且足够有意义。因为大多数物理产品的设计空间几乎是无限大的,既不能对它进行完全随机抽样,也不能均匀抽样,必须巧妙采样。要在主流设计周围密集采样,而在设计空间的边角区域进行稀疏采样,因为这能让你学到东西,即使那些边角区域你不会采用,也能让模型理解原因。创建这些训练模型的数据集,是我们方法的核心。

当然了,如果你现在有上百万种飞机设计,每个都有性能向量,然后在模型训练后期,直接把这些数据丢给一个 LLM,也不会神奇地得到一个优秀的工程师。所以接下来就出现了这样一个问题,模型架构该是什么样?目前我们的做法是采用一个多模型的联合方案,稍后可以详细聊聊这个。各自负责不同工程推理环节。

Sonya Huang:可以再多聊聊吗,你们是如何让模型具备那种基于物理的推理能力的?这些能力在当今设计软件中已经实现了吗?还是说这些知识只存在于工程师的大脑里?你们又是如何把那些知识注入模型中的呢?

Paul Eremenko:首先让我描述下产品实质,因为这有助于回答问题。我们在某种意义上非常专注于认知层面的自动化,也就是将人类工程师在设计实体系统时所做的那些思维工作实现自动化。那么,人类工程师究竟会做些什么呢?人类非常擅长把一堆需求加以整理,提炼出其中关键的设计驱动因素,然后假设出一个或多个可能满足这些驱动因素的解决方案?然后是初步的规模估算,也就是大致判断答案会是什么样子,并确定在这种初步估算中需要考虑哪些相关的“现象学”因素。

我这里说的“现象学”,意思是不同的物理机制有哪些。这不仅仅是几何问题,涉及多重物理场系统,所以会有电学、热学、振动、电磁干扰等等。有时候这些因素很重要,有时候则无关紧要。优秀的工程师非常善于选择在进行初步估算时哪些物理模式是关键的,以及判断这个设计最终是否能成立,是否真的算是一个可行的设计。

人类还擅长了解详细设计与分析工具,清楚这些工具的适用范围,并懂得如何使用它们、如何为这些工具设置问题。而这正是我们试图解决的认知层面的自动化。我们第一款产品叫做 Archie,不是在说 Lee (小狗的名字)。Archie是我们的智能体。专注认知自动化的重要结果是,我们不试图在工具层竞争,已有许多用于详细设计、分析和仿真的现有工具,我们希望 Archie 知道如何像人类一样使用这些工具。但我们不试图替换这些工具,也不试图让自己的工具比它们更好,不以任何方式取代它,我们只需了解这些工具的存在以及它们各自的有效范围。

Pat Grady:就像人类一样。

Paul Eremenko: 没错。你的问题是关于不同模型,以及如何进行工程推理,基本上我之前描述的所有内容,提炼需求、选出关键设计驱动因素、估算规模等等,都可以简化为几个基础操作。一个是设计评估,如果有一个特定设计,它的性能表现如何。另一个是设计合成,如果给定一个目标性能或一组特定需求,我们要推导出相应的设计是什么。还有第三类操作稍微复杂一些,是在设计中查找错误并补全缺漏。

但基本上,任何一个工程查询、任何一项工程师执行的任务,都可归结为这些操作的组合。我们需要首先构建推理协调器,它能接受组织中的任务,并将其分解为正确顺序的基础操作。有些模型是基于神经网络的,有些则不需要,但都能很好地执行那些操作。

协调器背后的组件包括,例如基于物理的图神经网络替代模型,这是一个例子。另一个例子是几何推理模型,它可以回答关于部件相对位置、布局以及互相干扰等方面的问题。有些几何推理操作非常容易用算 法即可实现,就像软件1.0风格,不需要神经网络能力。更复杂的可用 VLMs 来解决。还有一类物理推理问题尚未解决,未来将出现新一代AI 模型,他们能更好处理高阶空间推理。

还有多物理场的推理。目前有几种不同的方法,有些是软件1.0式的,有些基于神经网络。比如我们开发的“脑切除LLM”(笑)它不再擅长英语,但擅长用程序表示多物理场系统,这像是模型的联邦集合。这一切都由一个LLM推力器协调完成,该推力器同时也是用户接口。Sonya Huang:Archie目前能够做到些什么?和当今普通的硬件系统工程师相比,它表现如何?Archie 接下来又会如何发展呢?

Paul Eremenko:这是个好问题。我们公司目前大约成立九个月,我们在种子轮之前做的基本上是围绕住 宅冷却系统的一个小型演示,主要是空调设备这类东西。我们之所以选择它,是因为这是一个涉及多物理场的领域,有流体流动,空气流动,热传导,电气系统等等,领域很丰富。但一个系统里的部件数量并不多,而且很多物理现象学是相当线性化的,也就是你可以对其进行简化。所以这个领域既足够丰富,可以让演示很有说服力,又不至于复杂到让我们陷入泥沼,因此我们把它作为第一个验证领域。

目前这个演示已经完成并公开了。下一个问题是,它究竟有多厉害?现在除了通过一种感觉测试之外,并没有一个好答案。也就是让人来跟它互动,然后感觉“哦,还不错”,除此之外没有更好的指标。所以我们投入了相当多精力来研究针对物理系统 AI、物理工程 AI 的评估。等节目播出时,我想我们应该已经在 arXiv 上发表了一篇论文,介绍我们的评估方法。我们称之为 Archie IQ。其目标是把评估也应用在人的 身上,例如一名入门级工程师、一名普通工程师、一名专家级工程师,以及应用在 Archie 身上。这样我们就可以有一个闭环流程来改进 Archie,使它在 IQ 水平上逐步提升。

Sonya Huang:你觉得你们会一直在住宅冷却系统上深耕,然后让一个住宅冷却系统智能体最终变成飞机设计智能体、星舰设计智能体吗?还是构建一个单一的通用智能体?

Paul Eremenko:初始阶段需要。我们必须为每个产品领域、每个垂直行业创建各自独立的训练数据集。 Pat Grady:你们是如何规划发展路线?从住宅冷却系统为起点,之后会如何发展?总体路线图最终是怎样实现物理世界工程AGI?路线图包含哪些内容?

Paul Eremenko:住宅冷却系统只是我们选择的试验田,首个目标市场是数据中心冷却系统。这些系统本质上仍是热力学引擎,与住宅HVAC差异不大,但复杂度显然要高一个数量级,规模也大得多。而且这个市场非常有意思,数据中心客户需求难以满足,冷却系统成为数据中心发展的瓶颈,这很令人意外。

这是个严峻痛点。系统交付进度都受限于工程能力,难以提供半定制化的解决方案。早期部署客户反响热烈,这些系统包含约上千个独特部件,物理领域相当丰富,但仍可线性化处理。从合成数据生成角度来看,这是个可控的问题,因此选为首个垂直领域。接下来我们会逐步推进,主要基于物理的合成训练数据。我们预计每年产品复杂度大约提升一个数量级。

第二个垂直领域是工业系统,涉及工厂设备,从物料搬运设备、工业机器人,到磨机、车床等等。再之后我们会进入移动领域,可能是汽车行业,也可能是农业、采矿设备等各类重型机械。再之后是航天和国防领域。

为说明数量级差异,数据中心冷却系统约有一千个独特部件,而一架飞机大概有百万个独特部件,两者相差三个数量级。根据当前预测,每个数量级提升约需一年。

Pat Grady:系统训练数据有多少是来自系统实际使用?从而使简单用例开始逐步引导出更复杂的用例,有多少通过其他训练数据生成技术输入?

Paul Eremenko:我们认为可以把 Archie 训练到初级工程师的水平,相当于大学学历,但对某个具体公司的产品、深入的流程实践,或者详尽的供应链成本数据不太熟悉,也不精通深度流程,或详细供应链知识,成本数据而非学校内容。仅靠非专有合成数据即可实现,指非客户专有数据。

目标是让 Archie 以入门级工程师的身份“受聘”,获得入门资格。之后与客户建立关系,签订数据共享协议等。 Archie 可学习企业防火墙后的内容,当然前提是得到客户的同意。这样我们就可以导入他们的 PLM 系统,导入他们所有基于模型的工具和模型,吸收所有基于模型的工具,以及各种质量问题数据等等。存在大量此类数据, Archie 可以在专业水平上相当快速地从初级提升到普通,再到专家级工程师。

Pat Grady:如何定于工程 AGI ?尚无公认AGI 定义。你自己的 AGI 定义是什么?将来某一天你们真的拥有了物理工程 AGI,你会如何判断自己确实达到了那个标准?

Paul Eremenko:回归评估体系,采用布鲁姆分类法。这是1950年代提出的人类学习认知分类法,近年也被应用到 LLM 上。我们对其进行了调整,使之适用于工程任务。这个分类法像一座金字塔,最底层是对信息的简单记忆,这个相对直接。再往上一层是对设计的语义理解,除了能记住信息之外,还要知道“这个部件有什么作用?”。再然后是评估一个设计或对设计所做改动的能力。例如更换某个部件或者调整某个尺寸,对性能有何影响?

再往上是发现设计中的错误,就是纠错和填补缺漏的能力。最终能创新设计或重大修改,最高层是EHEI,即工程反思,对认知过程的自省,所用方法的局限,是否存在替代方案,可能出错环节,这类问题构成最高层级。

这些其实是大多数一线工程师并不擅长的事情,只在资深专家或技术院士身上才常见。所以对我们来说,这种对自身工程过程及其局限的自我认知,正是人类工程智慧的巅峰。

另外一个维度看, AI 是否能在不针对新领域进行额外训练的情况下跨领域泛化。我认为可以从两个轴来考虑,在某一个轴上实现了 AGI,或者在另一个轴上实现了 AGI,或者同时在两个轴上都实现 AGI。各有 各的看法。而我们的希望是双管齐下。

Sonya Huang:你认为要解决当下这个数量级的系统复杂度、并最终扩展到飞机乃至更复杂的系统,需要做些什么?仅仅依靠规模效应吗?你们将能生成更多合成数据,获得更多数据、更多算力、更大的模型,未来就能解决更复杂的系统吗?还是需要研究突破才能实现?

Paul Eremenko: 不需要真正的研究突破。我觉得我们完全是在应用研究领域前进,也就是把前沿实验室已经做出的现有研究应用到我们非常具体的问题上。当然,在扩展规模上存在一些限制,主要是算力方面。生成数据需要CPU算力,因为涉及大量仿真和采样,训练需要GPU 算力,用于模型训练和推理。而目前来说,如果要对一个拥有百万个部件的系统完成这些,我认为现有算力还达不到。

如果回到 Pat 你刚才问的供应链的问题,如果系统有百万个独特部件,为了组合系统,覆盖设计空间,创建大量相邻系统,和一些差异较大的系统,你需要组建目录,组建模型目录,以及组合规则。组建目录规模需比典型系统设计大几个数量级。如果系统有百万独特零件,组建目录可能需要上亿或十亿量级。

目前这些组件目录我们是手工创建的。当然,我们在开发大量的自动化手段以及 AI 工具,来帮助我们构建这个组件模型目录。然后,必须智能地把这些组件组装起来,不能像龙卷风吹过废品堆却凑出一架 747 那样随意,这需要方法论。然后需要对每种组合进行仿真,得到它的性能向量。这就是训练数据集。所以我们说数据集“考虑了供应链因素”,因为理论上,目录中的组件要么反映了供应链中真实存在的组件,要么可以引入一些假想的组件。毕竟有时候创新不只是把现有东西组装起来,有时需要新电机,或新压缩机,需要各种新部件。所以可以引入目前不存在的新组件,但你清楚那是什么,以及如何获取。

这就是供应链信息化的含义。而“基于物理”则意味着,组合组件规则需建模所有相关交互模态,及其相互作用的现象学原理,并确保生成的设计实际上是可以实现的。

Sonya Huang:我很想听听客户视角的看法。毕竟你之前就是客户,你曾担任空客熟悉技术官。能否请您为我们讲解一下,对于未曾深入工业巨头内部运作的我们来说,设计一架新飞机的流程是怎样的?或者说,这些大公司里的工程师们平时都在做些什么?在工程AGI前后,他们的工作状况有什么变化?

Paul Eremenko:这个问题很好。之前已经给各位描述过工程师工作的抽象模型了,他们要处理一系列需求。可能并不都是系统级的需求,也许在负责一个子系统、一个组件或者一个小部件,但依然会有需求,需要从中挑出关键的设计驱动因素,想出解决方案,做初步规模估算,然后再做详细分析。这样的工作流会以一种类似分形的方式贯穿整个系统和整个工程组织,而工程组织的结构大体上正是与你要打造的产品相对应的。

我们将 Archie 定位为一个智能体有多重原因,其中之一是他相当自主,所以他并不是一个简单的助手。他被设计成增强整个团队,而不是仅帮助某一个人。我们试图把 Archie 定位为团队中新加入的一名员工。我们的使命宣言之一就是,让世界上每一家主要工业公司的每个团队里都拥有 Archie。Archie 加入团队后,我们卖给这些公司的就不再是软件,而是一种劳动力。

把工程软件卖给像空客这样的公司是非常困难的。在其生态系统中,已经有成百上千种工程工具,它们以各种复杂方式相互连接,要向这个生态中引入新工具非常复杂。而且这些公司的人工成本预算远远高于方法和工具类软件预算。因此应解决的是劳动力的部分,而不是工具的部分。

Archie的设计初衷是作为远程工程师加入团队,显然它没有实体形态,但它会出现在 Slack 或 Teams 或你用的任何协作工具上。你就像对待初级工程师那样给它分配任务,并以同样的方式与它互动。将 Archie 引入组织会几乎不产生额外摩擦,你不需要做任何不同的事情,不需要改变你的流程,只是多了这么一个成本更低的成员而已。Archie 可能在某些事情上做得更好,某些事情上可能差一些,但我们的目标是把他定位为一名“员工”。

Pat Grady:为什么叫 Archie?这个名字是怎么来的?

Paul Eremenko:因为它的首字母是 A。这就允许我们以后陆续推出 Bob、Charlotte、Daniel 之类,而且 Archie 这个名字让人联想到 Archimedes(阿基米德)、architect(建筑师),这些含义都和我们在做的事情相关。 Sonya Huang:你认为 Archie 将着手解决哪些类型的问题?你预计这会如何改变团队里人类工程师的工作方式?

Paul Eremenko: 在数据中心这个我们预计今年率先试点的应用领域,我们认为对 Archie 来说最有前景且最适用的一个场景就是产品定制,也就是半定制化。在数据中心冷却行业,从一个现有的产品平台出发,根据某个特定客户的用例进行定制,以满足架构需求、功能需求、建筑规范等等。这样的定制往往因案例而异,相当特殊。这也是大多数工程师工作时间投入最多的地方。所以这是我们让 Archie 首先要解决的问题。

但这个问题可以很好地延伸到其他领域。比如空客公司,极少会从零开始全新设计一款飞机,而是做大量衍生型号,或者大量所谓的HEDA变体,这些是针对特定航空公司的定制产品,具有特定客舱配置,特定飞行构型、特定的机上娱乐配置、特定的驾驶舱需求等等。大多数工业公司的工程师做的事情基本上就是这种半定制化工作。

Pat Grady:如果我们把时间快进到比如 2030 年、2040 年这样的长远未来,届时全世界可能会有上百万个 Archie,也许还有 Bob、Charlotte、Daniel等等。当你们实现物理世界工程 AGI时,普通人会如何感受到这种影响呢?他们的生活会发生怎样的变化?

Paul Eremenko:我觉得这是个时间跨度的问题。我一般不太愿意预测三年以后的事情(笑),尤其在这个飞速发展的年代。当 Archie 出现在各工程团队中,让团队更高效、也许帮助团队更有效地完成任务时,我们讨论过的一个方向是:如果每个团队都有 Archie,那么这些 Archies 能否彼此协作得比各团队的人类之间更好,甚至用它们自己的简化交流方式沟通?

做类似这样的事情,所以这一阶段主要是提升现有工程组织的效率和效能。对于普通人来说,其影响就是商品和产品的成本降低。Sonya Huang:所以我以后可以买得起飞机了?

Paul Eremenko:或许。我认为真正有意思的时代是从 Archie 能设计出我们人类设计不了的东西那一刻开始的。那就进入了超级智能的范畴,不仅仅是提升现有组织的效率或扩展现有组织的能力,而是能够真正设计出那些科幻书籍中曾经承诺给我们的东西。

比如星舰、戴森球、套娃大脑这类东西。说到底我是个梦想家,这也是我创办这家公司的原因。这是我想要的未来,也是明确指引我们的北极星。当然,在此过程中我们也希望打造一个务实且盈利的业务。

Sonya Huang:我们的合伙人 Konstantine 有个术语叫“随机思维”。意思是过去使用计算机时,一切都是确定性的,你输入什么就会得到固定输出,而使用模型时本质上就存在随机性。在你们这个领域,你如何看待并管理这种随机性呢?如果是开发网页应用,出点问题还能接受。但如果我用这种方式来设计一架飞机,那将是灾难性的。对于物理世界,你怎么考虑去管理模型的这种随机特性?

Paul Eremenko:人类本身其实也挺随机的。所以如果一个初级工程师在做任务,他会犯错,可能做得不对,也可能步骤不能复现 (笑)。所以我认为我们需要量化、并且预计会在今年稍晚的试点中量化的问题是,Archie 的错误率是多少?如果这个错误率和人类工程师相当,现有工程组织里已经有大量的制衡机制,可以确保一个初级工程师的失误不会让飞机坠毁,有多层评审,有里程碑检查,有测试环节,存在许多这样的层级,因此如果Archie具有可比或更优的错误率,那么它应该能无缝融入现有流程。

Sonya Huang:未来的工程组织会是什么样子?你觉得将来会不会出现一个人相当于一家 Airbus 的情况?

Paul Eremenko:我不太想预测三年以后的未来。未来一两年,我们的目标还是每个团队里有一个 Archie,就是说 10% 的劳动力是 Archie,它们来做那些人类觉得无聊、枯燥、重复的工作,也许还能带 来额外价值,比如 Archies 之间的协作之类的。再往后,可以会出现超级智能,你对它说开始建造戴森球,它就开始,中间具体怎么发展很难预测。

Sonya Huang:好,我们进入闪电问答环节。你觉得今年会爆发的应用或应用类别是什么?

Paul Eremenko:我觉得我们快要迎来物理领域的 AI了。不是指之前说的那种 AI,而是指机器人,以及 用于摄取真实世界传感器数据的基础模型。这两者都是我们想要构建的东西中非常重要的基石,而且我觉得非常非常接近实现了。

Sonya Huang:人形机器人呢?

Paul Eremenko:我觉得它是可行的。原因和我们试图构建能融入现有团队的智能体是一样的,人形机器人即使形态不是最优,但也更容易融入现有环境。

Pat Grady:有哪一部作品是你觉得做 AI 的人一定要去看的?

Paul Eremenko:我觉得每个人都应该去读一读Asimov 的 Robot 系列。因为机器人学的种种定律都是经过非常深思熟虑的,而这些定律中有很多其实需要被非常深刻地构建进这些模型里去,以确保对齐。

Sonya Huang:你还欣赏哪些初创公司?

Paul Eremenko:现在很多在开发摄取物理世界数据的模型方面所做的工作并不为人所知,但却极其重 要。原因在于,我们其实并不真正清楚神经网络为什么能奏效,但我们有一个模糊的、类神经元或类人类的假想,然后把足够多的神经元堆起来,就出现了奇妙的涌现性质。

进一步想,人类是如何获得知识的?婴儿最先发展的是触觉、味觉、听觉,接着才逐步有了视觉,然后是语言,再然后才是更高阶的工程推理、空间推理等能力,这些可能是建立在语言之上,或者建立在他们已有的其他感知和感觉模型之上的。

而在 LLM 或深度学习中,我们复制了神经结构,但由于数据可得性,我们优先发展语言能力。抓取全网数据,同时也发展图像处理,但跳过了触觉、味觉、听觉等等。而我认为触觉对于建立感知尤为重要。我也反复提到空间推理,以及抽象思考三维物体和三维结构的能力。

我始终关注空间推理能力,即抽象思考三维物体的能力。因此我看好几家相关公司,Type是我之前在 Google 的一位同事创立的优秀范例。他们正在开发一种用于摄取传感器数据的基础模型,而且这个基础模型已经证明,它可以推断出那些数据背后的一些物理规律。我觉得这非常酷。最终要实现工程 AGI,所有这些基石最终可能都是需要的,光靠语言和视觉是不够的。

Pat Grady:最后一个问题。你个人最喜欢用的 AI 应用是什么?

Paul Eremenko:较无趣的答案是 ChatGPT 和 Cursor,更有趣的答案与我们最近的活动有关,我们想制作展示北极星愿景的视频,呈现工程化AGI及其实现路径,所以我们和EyeMix 工作室合作,他们曾制作过那个川普加沙的视频,如果你们有了解的话,那个视频大概一个多月前病毒式传播过。

他们制作了完全 AI 生成的大约两分钟传记短片,可以在我们的网站上看到。那段影片完全是 AI 生成的,只用了两周时间就完成了,而且成本大概只有用传统方式制作同类内容的五十分之一。短片中的一切,配音、画面、音乐,全部都是用各种模型生成的。有些模型是他们自己的,很多模型则是他们从现有生态中整合来的,我真是被这个作品惊艳到了。

Sonya Huang:太精彩了。Paul,Lee,非常感谢你们今天加入我们,和我们分享你对物理世界工程 AGI 未来的愿景。我们非常期待有一天你们能把买飞机的成本降下来。在这段时间里,我们也很期待看看 Archie 接下来能做到什么。

Paul Eremenko:这是我们的荣幸。感谢你们的邀请。