独家｜清华系初创完成数亿元种子轮融资：我们不想被贴上「世界模型」的标签

🤖 Yapay Zekâ 📰 China 🕐 2 saat önce

文｜周鑫雨编辑｜张雨忻《长安的荔枝》，是 97 年清华博导李一鸣很喜欢的故事。故事里，为了将“一日色变”的鲜荔枝从岭南运到长安，小吏李善德必须解决保鲜、驿站、路线、补给等一系列环环相扣的难题——没有这套完整系统，鲜荔枝寸步难行。这个设定在唐朝的故事，在李一鸣眼中，却与当下的“世界模型”赛道，形成了巧妙的互文： Physical AI（物理AI）的场景、解决的问题，是“鲜荔枝”；为了达到“运送”的目的，从业者们同样需要构建一整套涵盖数据采集、模型研发、硬件部署的系统方案。 “世界模型的第一性原理，不是走什么技术路线，而是最终解决什么问题。”他告诉《智能涌现》，所谓的世界模型，只是“一匹运送荔枝的马”，是解决问题的一条技术路线，离开其它环节的配合，将毫无价值。然而，2026 年初，当这名前英伟达 Vision & Robotics 研究员，以清华大学人工智能学院助理教授的身份回到国内，他看到的 AI 赛道，正在陷入一场对“世界模型”的巨大 FOMO。世界模型，2026 年最具迷惑性的概念之一，派系林立，众说纷纭。非共识和想象力，又让世界模型成为当下估值泡沫最大的一个赛道。无论视频模型、3D 模型，还是走 VLA（视觉-语言-行动）路线的具身大脑，只要能和仿真、物理沾上边，都将自己划为“世界模型”的阵营。相对的，李一鸣觉得，比厘清世界模型定义更重要的，反而是厘清一套让各种机器人在各个场景中泛化的系统。近期，李一鸣团队提出了一套由数据和物理双轮驱动的 Physical AI Infra 。其中包含两个自研组件：数据管线：将数据采集量级快速规模化，从几十万小时的行业平均量级，提升到百万到千万小时。物理引擎：实现 Real-to-Sim-Real 的闭环，也就是基于真实世界数据，构建一个仿真世界，用于机器人对物理世界的强化学习，最后在真实世界中执行任务。即便世界模型并非一个独立组件，它仍然渗透在这套系统设施的每一个环节中。比如，基于采集到的数据，系统会将“世界模型”作为预训练的目标；在后训练环节，“世界模型”又会成为机器人进行强化学习的仿真环境。该基础设施能够实现切割、旋拧、插拔、搅拌、按压、捏取、穿引等精细操作技能的训练，并在不同类型的灵巧手、机械臂等本体间跨形态部署，同时可适配生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多元场景。这套技术方案，也被 2026 年 4 月成立的「厘清智能」所采用。背靠李一鸣团队，这个 Physical AI 领域的新玩家，成立短短两个月内，便完成了多轮融资。《智能涌现》独家获悉，厘清智能的种子轮融资金额高达数亿元，投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等基金，以及智元机器人、灵心巧手、世纪金源等多方产业资本。稀缺性，是让一级市场押注厘清的重要理由。一方面是软硬一体的人才。李一鸣的履历，横跨空间感知、多模态推理、自动驾驶以及具身智能。在纽约大学读博期间，他与谢赛宁（AMI Labs 联合创始人兼首席科学家）合作发表了具身视觉推理的研究成果；同时，他与英伟达联合发表了多篇 CVPR 与 NeurIPS 亮点论文，并获得了2024年度英伟达奖学金（全球仅 10 位）。 △ 李一鸣。图源：受访者供图厘清团队的 50 余名成员，大多是清华的学生，平均年龄 23 岁。“软硬一体的人才在国内很稀缺，所以清华给我们提供了很好的人才平台，”李一鸣告诉我们。另一方面，则是厘清技术路线的稀缺性。李一鸣大胆选择了一条“很重”的路线：从数据采集，到模型训练，到物理引擎，全栈自研。这在国内相当少见。前期的巨大投入、跨软硬的技术难度，已经劝退了一大波公司。但李一鸣认为，只有打通所有的环节，信息流才能在不同环节、不同模块中畅通无阻，不同环节才能协同优化。在李一鸣的规划中，今年年底前，团队将发布可以跨 B 端场景的世界模型；2028 年，厘清将实现解决方案的规模化。最终，他的目标是交付给客户一套软硬一体的解决方案，跨本体、跨场景地解决问题。近期，《智能涌现》与李一鸣聊了聊他的技术判断，以及对世界模型、Physical AI 的判断。以下是《智能涌现》对李一鸣观点的整理： Physical AI 公司，不是本体公司，也不是模型公司 🤖 我们做的不只是世界模型，而是一套系统。我们不以技术路线为导向，而是以实际问题为导向。训练世界模型的目的，不是为了训模型，而是为了解决 Physical AI（物理 AI）的一些问题，去迭代优化任务的成功率。所以，我们不在意世界模型具体是什么，而是怎么将数据、模型、硬件、Infra 耦合成一个系统，最后成为一个能在场景中 work 的世界模型。我们的目标是构建数据和物理双轮驱动的一套生态，“世界模型”渗透在每个环节中：预训练过程，是将“世界模型”作为自监督的训练目标，同时对 state（状态）和 action（行动）进行建模；后训练过程，是将“世界模型”封为可交互的环境，机器人可以在环境中进行强化学习。厘清智能其实不只是一家“世界模型公司”。整个团队做的是包含了数据管线、世界模型、物理引擎的一整套系统，所谓的“模型”只是其中的一个技术组件。 🤖 新一代的 Physical AI 团队，核心特点是全栈。从数采设备到数据管线，从可微物理引擎到模型训练，我们全部自建：自研的全掌触觉手套等设备，将单套成本从美元压到人民币量级，实现数采规模化，达到百万小时量级。自研的可微物理引擎，实现了 Real-to-Sim-Real 的闭环，可以建模复杂材质比如流体，软体、弹塑性形变物体，成为高效的强化学习后训练平台。基于广泛场景中采集的数据，以及后训练物理引擎，我们自研的世界模型操作系统，既能快速泛化到各个场景，也能实现 cross-embodiment（跨本体）。 🤖 新时代的具身公司，不应该是本体公司，也不应该是模型公司，而是一家 World Model as Service 公司。未来随着数据量的快速积累，我们可以实现快速的跨本体泛化，最终交付给客户的不是世界模型，而是一套软硬一体系统。这套系统可以根据落地场景和客户预算自动匹配最优硬件方案，开箱即用。 🤖 Physical AI 的人才画像，是软硬一体。清华提供了很好的人才平台，我们团队的平均年龄是 03 年，甚至有 07 年的大一学生。 Physical AI 的人才画像，和 LLM 不太一样，我们需要的是软硬一体的人才。目前这样的人是非常稀缺的，因为我们的培养体系还在日渐成熟的过程中。所以我们找到好苗子后会自己培养。现在的学生在一个好的团队中差不多半年、一年的时间，就能突飞猛进。不能只做数据采集，忽视物理规律 🤖 具身模型的参数至少要达到语言模型的量级，甚至还要比语言模型再高几个量级，才有可能谈“智能涌现”。语言是已经被压缩过的世界规则，现在都需要几百B的参数量，基于自然信号训练的具身模型，需要更多的数据与参数量。 🤖 人类数据比真机数据更好 scale up（规模化）。全中国有几亿人在一线工作、在家庭中生活。相较于你操纵机器人采集数据，带着设备的真人采集数据的效率高许多，毕竟 scale up 人数，比 scale up 机器数量或者采集时长容易得多。目前，我们已经找到了工厂、酒店、物业、商场、厨房等可规模化的场景方合作，短时间内会快速积累到百万小时的数据量。 🤖 做一整套 Physical AI Infra，只靠数据采集是不现实的，还需要很多物理规律。现阶段采集到的数据量，还不支持 Physical AI 自主泛化到所有场景。然而，现实世界有很多场景，就连两个苹果都长得不一样，不可能将所有场景的数据都采一遍。物理规律现阶段可以补足数据的局限性。所谓的物理规律，就像牛顿定律、纳维-斯托克斯方程（粘性牛顿流体运动规律），是人类对物理世界规则的总结，具有一定的通用性。 🤖 厘清智能设计了一套满足物理约束的世界模型方案，可以用别人 1% 的真机数据量训练策略模型，达到相同的成功率。我们先通过真机采集少量数据，再将真机数据的 state transition（状态转移，指世界状态随行动产生的改变）和物理世界模型的 state transition 进行对齐，并将 loss（损失函数，指模型犯错的程度）回传，进而不断优化世界模型。这样做的好处是，我们只需要少量的真实数据，“校准”世界模型建模的状态转移，就能让机器人在虚拟世界中自主学习。举个例子，以前机器人学习切苹果，需要切坏成百上千个材料；现在只需要真切十次，剩下的练习都可以在物理世界模型中完成。 VLA、视频模型、JEPA，都不是「原生世界模型」 🤖 世界模型负责机器和世界的交互，语言模型负责机器和人的交互。现在大家都意识到，基于 LLM 做 VLM（视觉-语言模型）、做 VLA（视觉-语言-行为模型），本质上与物理世界没有那么适配。因为语言模型是一个高度离散化的空间。简单来说，我们跟世界打交道，总结出了一套语法规则。但是每个国家的语种都不一样，语言也充满了人对世界的 bias（偏见），而且有很多东西是无法用语言讲清楚的。本质上，语言的目的是交流，是人机交互的界面，而不是一个模态。模态是你对世界的观测，语言则是你摄入信号后的总结。所以训练世界模型，语言不是中心，而是辅助的。 🤖 世界模型的训练同时需要 SFT（监督微调）加上 RL（强化学习）。世界模型需要在物理世界中做 SFT，但物理数据的量是不够的，所以我们需要自己采集数据，建立数据标准。 LLM 在后训练过程中可以生成任意的词元，但世界模型必须遵守物理规律，所以我们自研了可微物理引擎，让后训练可以在满足物理约束的前提下进行。因此，世界模型的训练是一套 system，需要联合预训练、后训练，以及数据 Infra 和硬件 Infra，才能实现训练效益最大化。 🤖 全栈打通感知、推理、决策、动作输出，并且面向机器和世界交互任务设计的，才是“原生世界模型”。 VLA 是非原生的世界模型，因为它的表征是离散的语言空间，不是真实世界；JEPA（联合嵌入预测架构）只能预测状态（state），但无法输出动作。视频生成模型也不是原生世界模型，因为推理过程不是原生的。它生成的像素，只能拟合世界的表象，很难保证复杂任务策略学习需要的几何与物理一致性。 🤖 训练“原生世界模型”，关键是如何将物理世界高效 tokenization（表征）。多模态观测——视觉、触觉、力觉—��如何被压缩成模型可消化、可推理的 Token 序列，直接决定了模型能理解什么，不能理解什么。这层表征质量，是后续所有能力的天花板。我们是全球少数能将表征端 tokenization 的公司，也就是将物理世界，高效压缩为机器容易理解和学习的 Token。这套体系的壁垒不在技术，而是认知。它需要很强的 Know-How，需要你知道整一套生态系统该怎么搭建。比如，数据怎么清洗？模型怎么优化？这些问题都有很强的认知壁垒。目前，我们团队内部训练的视觉 tokenizer（表征器，用于将物理世界转译为 Token），效果已经优于 Meta 的视觉基础模型 DINOv3。后续物理世界的高效表征也会是我们团队的重点研究方向。 🤖 如何构建 Physical AI 的 Infra，是训练世界模型的另一个难题。除了构建数据平台，我们还需要设计好物理引擎 Infra。比如，如何让物理引擎去高效建模柔性物体、流体的 state，从而高效计算 state transition。只有这样，机器人才能在物理引擎中做强化学习。如果一家公司所谓的“Infra”，只能支持本体做一些简单的抓取，那就不叫真正的 Physical AI Infra。真正

#llm#人工智能#robot

📌 Kaynak

Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →

📱

News AI World — Mobil uygulama

Bu haberleri 45 dilde, anlık çeviriyle cebinde. Erken erişim için Gmail adresini bırak.

← Tüm haberlere dön

独家｜清华系初创完成数亿元种子轮融资：我们不想被贴上「世界模型」的标签

📌 Kaynak

📰 Önerilen haberler