硬氪专访 | 罗剑岚:机器人真正的Scaling Law,发生在真实部署闭环里

🤖 Yapay Zekâ 📰 China 🕐 4 saat önce
硬氪专访 | 罗剑岚:机器人真正的Scaling Law,发生在真实部署闭环里

作者 | 邱晓芬 编辑 | 袁斯来 过去半年,国内具身智能赛道经历了一场静悄悄的重心转移:聚光灯从硬件本体的“自由度竞赛”,逐渐移向决定机器人智能上限的深水区。 只是,当行业反复讨论“机器人能否通过暴力堆数据复刻大语言模型 ScalingLaw”时,上海创智学院副教授、智元机器人首席科学家罗剑岚,给出了一个并不随大流的判断:具身智能不能简单照搬大语言模型的发展路径。 罗剑岚的表达风格极具辨识度。他习惯在中英文专业术语之间快速切换,逻辑推进密集,很少给出模糊的折中答案。 相比停留在“数据、模型、Infra哪个更重要”的单点争论上,他更倾向于直接指出问题本身:当前具身智能的核心矛盾,不是某一个环节的单独突破,而是这些环节能否在真实部署中形成闭环。 这种判断来自他横跨学术研究与产业落地的经历。作为曾经的伯克利博士,他师从具身智能领域奠基性人物Sergey Levine(谢尔盖·列文)。毕业后,他曾任Google X与DeepMind研究科学家,14个月前,他回国并加入创智学院和「智元机器人」。 在他看来,目前行业里相当一部分所谓“具身基础模型”的训练方

作者 | 邱晓芬 编辑 | 袁斯来 过去半年,国内具身智能赛道经历了一场静悄悄的重心转移:聚光灯从硬件本体的“自由度竞赛”,逐渐移向决定机器人智能上限的深水区。 只是,当行业反复讨论“机器人能否通过暴力堆数据复刻大语言模型 ScalingLaw”时,上海创智学院副教授、智元机器人首席科学家罗剑岚,给出了一个并不随大流的判断:具身智能不能简单照搬大语言模型的发展路径。 罗剑岚的表达风格极具辨识度。他习惯在中英文专业术语之间快速切换,逻辑推进密集,很少给出模糊的折中答案。 相比停留在“数据、模型、Infra哪个更重要”的单点争论上,他更倾向于直接指出问题本身:当前具身智能的核心矛盾,不是某一个环节的单独突破,而是这些环节能否在真实部署中形成闭环。 这种判断来自他横跨学术研究与产业落地的经历。作为曾经的伯克利博士,他师从具身智能领域奠基性人物Sergey Levine(谢尔盖·列文)。毕业后,他曾任Google X与DeepMind研究科学家,14个月前,他回国并加入创智学院和「智元机器人」。 在他看来,目前行业里相当一部分所谓“具身基础模型”的训练方式,并不是真正意义上的预训练,更接近中训练(Mid-training)或微调(Fine-tuning)。 原因也很现实:当前高质量真机交互数据仍然稀缺,尤其是覆盖多场景、多任务、多本体,并且包含失败、纠错和长尾交互的数据,远不足以支撑类似大语言模型那样的大规模预训练。 这也造成了一个现象:在真机交互数据不足的阶段,行业里不少团队会选择在已有开源模型底座之上,叠加高质量遥操数据,在特定任务上进行对齐或微调。 这种路径在短期内可以快速提升实验室任务表现,但它并不等同于真正意义上的具身基础模型预训练。模型在离线数据上的Loss(损失)曲线变好,更多说明它更好地拟合了已有数据;至于能否迁移到新的物理场景、处理长尾扰动和失败恢复,仍需要通过真实部署来验证。 (作者注:Loss是“模型每次猜错了多少的分数”,Loss曲线就是把这分数按时间画出来。Loss曲线往下走,通常表明模型在训练数据上拟合得更好;但在机器人领域,它并不必然等同于真实场景中的部署成功率提升。) 也正因此,罗剑岚认为,具身智能不能盲目照搬GPT式的Scaling Law。 具体而言,在大语言模型中,预训练Loss与模型能力之间存在相对稳定、可预测的统计关系。 但在机器人领域,离线Loss下降并不必然对应真实部署成功率提升——机器人面对的是开放物理世界,涉及接触、扰动、长尾场景、硬件差异和任务反馈,模型“记住”了数据,并不代表它能真正“驾驭”现实。 因此,具身智能真正的突破不只是堆参数或堆数据,而是应该部署一个闭环——直到机器人部署规模扩大后,新场景适配成本能够持续下降,数据回流能够稳定提升模型能力,这才是物理世界中的“Scaling Law时刻”。 在这一逻辑框架下,回国后罗剑岚,核心任务正是构建一个可规模化演进的具身智能闭环。 他将这一年的工作重点凝练为三个技术支点: 首先是SOP(可扩展在线后训练)。SOP面向的是大规模机器人在线后训练所需的基础设施问题,包括低延迟数据回流、云端计算、训练调度和模型更新。它的价值不只是一个算法模块,而是验证机器人数据能否从部署现场高效进入训练闭环。 其次是LWD(部署中学习)。它试图打破过去“训练—部署”的割裂状态,让机器人不再是出厂即定型的产品,而是在便利店、商超等真实场景中持续进化的系统。当机器人遇到未见过的货架形态、商品摆放或操作扰动时,系统能够通过真实交互不断积累数据,并将这些经验转化为后续模型改进。 最后是近期由上海创智学院和「智元机器人」联合发布的τ0-WM世界模型。 τ0-WM并不把视频生成当作最终目的,而是把视频预测作为学习物理动力学、评估动作后果的一种手段。更具体地说,它希望成为一个动作条件的物理推演器:在机器人真正执行动作之前,先在模型内部比较不同候选动作可能带来的未来结果,从而帮助系统选择更可靠的动作。 举个例子,面对桌边的鸡蛋,普通VLA可能直接输出抓取动作;而动作条件世界模型可以先比较几条候选轨迹的未来后果,避免选择会把鸡蛋扫落桌面的动作。 在罗剑岚看来,接下来具身智能真正的决胜点,不是硬件,更不是数据、模型、Infra单点能力的强弱,而是它们能不能彼此形成闭环——这就像是木桶的不同木板,任何一个关键环节短板过短,系统能力都难以真正释放。 “谁能率先在便利店、商超、仓储等半结构化场景中,跑通‘部署—数据—迭代’的数据飞轮,谁就真正具备了大规模商业化的可能性”,他表示。 而关键的时间节点,或许正是未来的12到18个月。 近期,硬氪与罗剑岚聊了聊。以下是采访实录,略经摘编。 真正的具身预训练,门槛比想象中更高 硬氪:你为什么认为现在国内具身智能行业里,真正做基础模型训练的团队很少? 罗剑岚: 类比大语言模型的发展阶段,我觉得现在机器人领域有能力做具身基础模型预训练的团队很少,大家做的更多是fine-tuning(微调)或“中训练”(Mid-training)。 甚至很多中训练也不算夯实。现在行业里很多所谓“机器人基础模型”,更接近在已有开源底座上的任务适配或中训练,还没有真正进入大规模、异构、真实交互数据驱动的预训练阶段。 行业里甚至有一个半开玩笑的说法:“ paper上,PI(Physical Intelligence)从来没赢过;现实里,PI从来没输过 。” 这句话背后反映的其实是一个问题:机器人模型不能只看论文指标,最终还是要看真实世界里的部署效果。 回顾LLM的路径,预训练模型本身的输出其实充满噪声,需要通过中训练进行高质量对齐,再通过后训练进一步激活特定能力。 真正的机器人基础模型预训练,也应该像LLM一样,吸纳极其广泛、甚至包含噪声的数据。只不过机器人领域的数据不是静态文本,而是真实世界中的交互、失败、纠错、恢复和长尾场景。 硬氪:预训练、中训练、后训练,在数据和架构上有什么区别? 罗剑岚: 这是训练的三个阶段,核心差异是数据和训练算法。 预训练是用极广泛的数据训练模型,什么数据类型都覆盖一点; 中训练是用高质量的机器人遥操示范数据,对齐任务需求; 后训练是针对特定能力做优化,比如大语言模型中的推理能力,往往需要通过后训练、强化学习或高质量任务数据进一步激活和对齐。 硬氪:那接下来国内公司在补齐预训练和后训练时,可能会遇到什么挑战? 罗剑岚: 核心是数据,还有真实场景部署的问题。整套系统从数据到Infra到模型,是环环相扣的,没有哪一个是绝对更重要的,这个是木桶效应。 我认为,真实世界的数据必须作为底座。这就像不同年龄读同一本书:3岁看不懂,20岁能理解情节,40岁能看到人性。 如果基础模型越强,吸收异构数据、迁移到新任务的效率就会显著提高;但是如果没有真实数据打底,单纯依赖仿真或视频数据,模型的上限会被限制住。 硬氪:现在很多公司都在说机器人的“GPT时刻”。你认为大概要堆到什么量级的数据,才能真正实现泛化? 罗剑岚: 我反对盲目对标GPT式的Scaling Law。 如果限定在高质量、真实交互、可用于闭环部署的机器人数据上,当前行业的数据规模仍然远远不足。很多所谓“百万级”“千万级”的数据说法,背后口径并不统一:有的是视频,有的是轨迹,有的是仿真,有的是遥操,有的是单一任务重复采集。机器人数据到底怎样计量,行业本身还没有完全收敛。 大语言模型的Scaling Law建立在预训练Loss与模型能力之间相对稳定、可预测的统计关系上;但这一规律在具身智能领域并不自动成立。 机器人的训练Loss下降,仅代表模型更好地拟合了静态数据,并不等同于其在物理世界中的部署成功率提升。物理交互的复杂性意味着,模型“记住”了数据,并不代表它能“驾驭”现实。 因此,具身智能的金标准,绝非数据规模或Loss值,而是真实场景的部署效能。真正的突破点在于,当我们观察到随着部署台数增加,新场景适配成本持续下降,模型迭代效率持续提升——这才是数据飞轮开始转动的临界点。 遗憾的是,学界与业界至今无法精确计算这一临界点对应的数据量级。 机器人需要一个闭环 硬氪:你在一年多以前回国,观察下来,国内外具身智能机器人业态最大的差别是什么? 罗剑岚: 机器人是一个全栈系统,需要硬件、模型、智能,也需要靠真实部署形成数据闭环,不能等某一项技术完全收敛之后再做另一项。 国内的优势是产业链、供应链、工程能力和人才密度。现在全球都还没真正突破的是机器人的“大脑”。我们应该把这些优势结合起来,快速跑通闭环,发挥好国内原有的硬件、场景和部署优势,而不是只卷本体。 硬氪:你回国之后做了很多工作,比如LWD、SOP,还有前段时间发布的世界模型。这些研究成果各自的作用是什么?这个完整闭环主要由哪几个部分组成? 罗剑岚: 从底层往上捋,最底层是大量部署在真实场景中的机器人硬件,也就是Fleet learning(机器人集群协同学习)。你首先要有一支足够规模的机器人“舰队”。 再往上是基础设施层,包括云端实时计算、数据回流、通信、训练加速、推理加速这些软硬件云一体的Infra。我们之前发布的SOP,其实就是这个Infra的概念验证,证明这套链路可以跑通。 再往上是算法层,包括两部分:一部分是预训练,另一部分是后训练。我们几个月前发布的LWD,解决的就是机器人后训练、自我进化的问题。后面我们也会继续推进自己的预训练基础模型。 我们整体闭环的逻辑是:真实部署不是训练的终点,而是智能继续演化的起点。它可以形成一个正向飞轮:部署更多机器人,产生更多数据,训练出更好的模型,然后部署更多机器人。 硬氪:理想中的数据飞轮效果是什么样的? 罗剑岚: 就是越部署越强的正向循环:模型变强,部署更多机器人;部署更多机器人,回流更多数据;回流更多数据,再训练出更强的模型。 比如,在便利店、商超这类半结构化场景中,部署前20家的时候,可能需要收集大量交互数据;但随着部署数量增加,新场景适配成本会显著下降。理想情况下,部署到第100家时,新场景适配所需的数据量会变得很少,甚至接近开箱即用。 硬氪:打通这个闭环的意义是什么? 罗剑岚: 现在的硬件虽然还不完美,但对于构建特定任务的闭环来说,硬件已经基本够用,并未成为核心瓶颈。真正的短板在于数据闭环——也就是从模型、数据到整个链路的持续迭代能力。 目前全球有远见的CEO都在关注具身智能,大家都在等那个“第一个信号”出现。一旦有人在半开放场景中跑通商业闭环,证明数据飞轮能转起来,资本和产业资源就会迅速向这个方向集中。 这正是创业公司的机会。大厂们受制于OKR和既有护城河,转身相对缓慢;创业公司的优势在于速度。我们不需要颠覆所有场景。 未来12到18个月,如果有团队能在便利店、商超、仓储等半结构化场景中率先跑通“部署—数据—迭代”的正向循环,它就会建立非常强的先发优势。 世界模型不是生成视频,而是预测动作后果 硬氪:现在世界模型很热,你对此的理解是什么? 罗剑岚: 这个话题每两年就会被拿出来讨论一次,从2017、2018年就开始了。之前主要是技术圈内部讨论,现在AI的社会关注度很高,所以世界模型也出圈了。 对于世界模型,我更关注的是action-conditioned predictive model,也就是动作条件的预测模型,或者可以理解成前向动力学模型——在给定当前状态和动作的条件下,预测执行这个动作后的未来状态、奖励或者其他utility的变化。它的核心,是能在不真正执行动作的情况下,评估动作对未来世界状态的影响。 举个例子,早上煮鸡蛋,我脑子里会预判,用小火煮要很久,不如用大火。这个过程并不需要我真的先把每个动作执行一遍,而是在脑子里判断方案好坏。 硬氪:为什么现在世界模型的技术路线这么不收敛? 罗剑岚: 现在世界模型最大的问题是定义过宽。很多人口中的世界模型,其实更接近video pr

#llm#deepmind

📌 Kaynak

Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →
📱
News AI World — Mobil uygulama
Bu haberleri 45 dilde, anlık çeviriyle cebinde. Erken erişim için Gmail adresini bırak.
← Tüm haberlere dön