独家｜获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径

🤖 Yapay Zekâ 📰 China 🕐 2 saat önce

“每一代模型，我们都在押注一个非共识。” 文｜邓咏仪编辑｜张雨忻 Sand.ai 创始人曹越，不太关心自己站在共识的哪一边。 Sand.ai 是一家视频生成模型和产品公司，成立于2024年1月。曹越创立Sand.ai 的故事也已经被讲过很多遍：在上一段创业“光年之外”戛然而止后，曹越很快就投入到 Sand.ai 的创业中，做视频生成模型。彼时，市场的主流叙事是 Diffusion 路线，几乎没有人认为曹越选择的自回归（Autoregressive）路线是一种正解。而在2025年初，发布基于自回归架构训练的模型 Magi-1 后，曹越很快意识到“只有画面是不够的”，于是团队开始探索音画同出。后来，Sand.ai 成为了除了Google VEO 3之外最早拿出音画同出模型的团队，Magi-1也在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。 2025年11月，曹越又下了一个赌注：决定带着团队将模型架构从 Dense 转向MoE，“那个时间点，国内应该几乎没有什么视频公司在全力推进这件事。” “发布音画同出模型 Gaga-1 之后我们发现，在Dense架构下继续 Scale Up，成本会直线上升。视频模型存在一个不可能三角：成本、速度、效果。突破它只能靠研究手段，MoE 就是答案。”曹越说。 2026 年 Q3，Sand.ai 将发布新一代视频生成模型，采用 MoE 架构，兼顾高效推理与目前开源领域最大的参数规模。曹越表示：有信心做到头部水准，并且要把它开源给所有人。 △图注：摄影机里捕捉的影像，与出镜女孩的动作一致 △图注：Sand.ai 新模型所生成的视频这家公司也刚刚完成两轮合计超亿美元融资，投资方包括 Look Capital、Lollapalooza Capital（王慧文家办）、九坤创投、经纬创投、和玉资本（MSA Capital）、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。创业近三年，无论是押注自回归路线、做音画同出，还是 MoE 架构，曹越的底层思考都是同源的：“在终局的情况下，是每个人都可以去消费非常个性化的内容。那在这个前提下，你的内容生产成本一定要下降到很低。”曹越说。不变的另一点是，曹越并不关心自己是否站在市场共识这一边。“一旦你过于关心他人的认知，大概率是你没有从第一性原理去思考问题。” 同样的答案出现在我们问他“世界模型是什么”的时候。 “现在很noisy，”曹越说，“每个人在说世界模型的时候，大概率都不知道在说什么，它变成了一个 Buzzword 。” 世界模型是 2026 年最说不清道不明的 AI 概念之一。杨立昆、李飞飞等学术巨擘押注了完全不同的方向；与此同时，曾以“世界模拟器”之名震动行业的 Sora，已经在 3 月暂时停运。在国内，这个领域也涌现了多家明星初创，而不少以前做 3D 生成、视频生成的公司，也都在高调转向世界模型。一方面，世界模型寄托了人们对未来模型路线的想象——一个融合语言、图像、视频、音频的统一模型；另一方面，在模型竞争通道越发逼仄的形势下，这个词也成了 fomo 情绪的出口。曹越的判断是：世界模型还在“前 GPT 时代”——GPT-1 出现之前的时代，数据不够、定义不清、技术路线也远未收敛。但他可以确定的是，视频模型是通往那个终局最重要的路径。 “你要看什么数据距离世界的 Observation（观测）最接近，并且体量足够大，其实只有视频。” 在持续推进基础模型训练的同时，Sand.ai 已经在应用侧落子，探索过数字人、视频 Agent 等产品。今年 1 月上线的音乐 Agent 产品 VidMuse ，三个月已经做到千万美元 ARR 的体量。 “创业公司如果没有训练出 SOTA 模型的能力，很容易被模型厂商整合。”曹越并没有被“模型公司要不要做应用”这种时兴讨论所困扰，他表示，Sand.ai 还会继续边做模型边做应用。在这轮融资完成之际，《智能涌现》与曹越聊了聊近三年来他的技术判断和应用探索。以下为《智能涌现》对曹越观点的整理：每一代模型，我们都在押注一个非共识我们从第一天就认为，自回归是对视频数据最本质的建模方式。市场上大家都在做纯 Diffusion 模型的时候，我们认为视频在时序上一定是因果关系，很多物理规律，本质是一个随着时间变化的函数 —— Predict Next Frame（预测下一帧）、Predict Next Second（预测下一秒），这是对视频这种数据最本质的训练范式。我们是最早探索自回归视频生成的团队，去年发布的 Magi-1 在 Google-DeepMind 提出的物理真实性测试榜单 Physics-IQ 中取得第一，并长期保持领先，超越了 Nvidia 最新推出的旗舰级世界模型 Cosmos3-Super ，更远超 Sora-2 等其他纯 Diffusion 模型。音画同出不只是功能升级，它是对世界状态更完整的压缩。我们发布 Magi-1 之后发现，只有画面是不够的。声音和画面天然对齐，同时生成会让两者互相帮助——音画同出之后，哪怕只看画面，真实感也显著提升。本质上，同时拥有画面和声音，更接近对这个世界状态的表达，维度更高。所以我们在去年 5 月就开始探索音画同出，是除了 Google Veo-3 之外最早拿出音画同出模型的团队。视频模型存在的不可能三角是：成本、速度、效果。去年我们就认为，只能靠研究突破， MoE 就是答案。 2025年我们决定转向 MoE，当时市场上没有几乎没有什么视频模型厂商公司全力在做这件事。这是因为，发布音画同出模型 Gaga-1 之后，我们发现 Dense 模型继续 Scale Up 成本会直线上升——如果用 Dense 架构做到同样效果，推理成本至少贵 3 到 5 倍，训练成本也是。我们在那个时间点没有看到任何一家公司在做视频 MoE ，但我们认为它非常重要：第一，你要继续Scale Up 就必须搞定MoE；第二，如果你希望更多普通人用得起视频模型，就必须在同等效果下降低成本。我们探索出了一套新的视频MoE架构和训练方案，跑通了视频模型做MoE的核心难题。视频 MoE 和语言模型 MoE 面临的挑战不一样——视频的 Token 序列远比文本长，Token的冗余度也更高，因此通信开销、负载均衡和训练稳定性等问题都被放大了。我们为此在模型架构上做了多项创新，从而首次实现了超大规模视频 MoE 模型的稳定训练。每一代模型我们都有一个Bet。Magi-1押注自回归，Gaga押注音画同出，新一代模型则是押注MoE。 7月我们要发布的新模型，就是这三代模型所积累的能力的汇合点——用MoE架构，把通用场景生成、音画同出、多镜头叙事、多参考生成全部融进同一个模型，目标是每个维度都做到SOTA。为什么要融合？比如，Seedance 2.0 证明了多镜头叙事是一个刚需，这是一个我们之前没有认为那么重要的点。所以，类似这种功能在市场中被验证重要能力，最终都应该被 Merge（融合）到同一个模型里——它们不是互相独立的 Feature（能力），也会共同帮助模型取得更好的效果。视频是通向世界模型的最重要路径，但也仅是一个中间加油站 “世界模型”这个词已经被完全滥用了。每个人在说世界模型的时候，脑海里冒出的可能都是不一样的概念。每一个概念背后都代表一种结构，你要理解它背后到底是什么，才能跟别人讨论。但现在很多人只是通过各种渠道大概知道这是个什么东西，它纯粹变成了一个buzzword。目前，大家对世界模型的理解差异还非常大；第二，对这个事情什么时候产生真实价值，大家的时间预期也不对齐。如果一定要给世界模型做一个定义，我认为它还在前GPT时代（GPT-1出现之前的时代）。首先，我们没有数据。我们生活在一个3D空间加时间轴的世界，但画面、声音、温度、压力等数据，维度非常高，而我们没有对世界完整的、大批量的观测数据（Observation）。对于世界模型的训练路径，也完全没有收敛。有一些人认为要通过“预测下一个状态”来实现，但我们认为，真正该预测的不是任何人为定义（Human-defined）的隐藏状态，而是世界本身给你的原始观测。我们认为，视频数据是走向世界模型最重要的数据类型。首先，视频数据是对世界观测数据里，规模最大的数据类型。它同时编码了时间、空间、视觉、听觉——是4D物理世界经由摄像头投影后的结构化切片，在所有可获取的世界观测数据中，信息密度最高、维度最丰富、体量最大。视频远不止画面，视频中保留的信息远比直觉上更多，触觉、温度、材料属性、甚至意图和情感，大量在人类感知中属于其他模态的信息，也被编码在视觉和听觉的时序变化中。有人说要“预测下一状态”，但没有人能帮助模型定义“状态”究竟是什么。很多人认为直接预测（Observation）可能会有很多冗余，效率不够高，从而希望人为定义状态（State）来提高其训练效率。这个教训LLM已经演示过一遍了——多少人试图显式建模词的表征、句子的表征、段落的结构，阶段性也确实被证明“高效”，但最终在规模化的路线上，全被 predict next token 杀死了。我们不应该在多模态建模上重蹈覆辙。历史已经反复证明，每次试图用人类先验去拆解世界，本质上都是在低估它的复杂度，建议全文背诵The Bitter Lesson（苦涩的教训）。我们认为，真正该预测的不是任何human-defined的隐藏状态，而是世界本身给你的原始观测——建模raw data（在视频里即pixels、frames、video）未必是阶段性最高效的方案，但大概率是最Scalable、上限最高的方案。如果要给世界模型定义几个要素，第一，它的核心是预测——但要警惕用人类先验去定义“该预测什么”；第二，它需要足够完整、多维度的数据来压缩真实世界的信息；也就是要能从当前的观测直接推演下一刻的观测，而不是从一个人为定义的隐藏状态推演下一个状态。从这个角度看，今天大家讲的很多“世界模型”，其实还只是很早期的东西。真正的世界模型，不是生成一段看起来合理的视频，而是要理解一个 3D 空间加时间轴上的世界，并且能够持续预测下一刻的真实观测。视频生成模型的演进，也是在一步步逼近世界模型的过程。你可以把视频模型的演进想象成一个孩子认识世界的过程。最开始他只能看照片，世界是静止的——这就是图像生成。然后画面动起来了，他能看动画了——这就是早期的视频生成。再然后画面有了声音，风声、脚步声、碰撞声都出来了——这就是音画同出。接着��发现换个角度看同一个房间，桌子椅子还在原来的位置——这是3D空间一致性。慢慢地，他知道杯子推到桌边会掉下去——这是因果关系。最后他能伸手推门，门真的会开——这就是实时交互。重点是：没有人给这个孩子塞一本物理课本，告诉他“重力是9.8、声速是340”。他就是从看到的、听到的越来越完整的观测里，自己搞明白了世界怎么运转的。视频模型的演进，走的是一模一样的路——不是人为给模型定义“状态变量”，而是让它从越来越完整的观测中，自己长出对世界的理解。作为一家创业公司，阶段性还是要想明白你的“加油站”在哪。对于创业公司而言，训练出 SOTA 的视频生成模型后，可以做内容生产，可以卖 Token，可以做 Agent。内容生产天然是一个巨大的方向，它的闭环周期比类似具身这样的领域要快得多，你可以一步一步走到终局（AGI）。要做模型，也要做产品做模型的公司做垂直整合之后，成本和体验都会更好。为什么要模型和产品都做？ Claude Code 就是这样——Cursor 占了 Claude 很大比

#llm#gpt-#openai#anthropic#deepmind

📌 Kaynak

Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →

📱

News AI World — Mobil uygulama

Bu haberleri 45 dilde, anlık çeviriyle cebinde. Erken erişim için Gmail adresini bırak.

← Tüm haberlere dön

独家｜获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径

📌 Kaynak

📰 Önerilen haberler