独家|获超亿美元融资,Sand.ai 曹越:为什么视频是通往世界模型最重要的路径

🤖 Yapay Zekâ 📰 China 🕐 2 saat önce
独家|获超亿美元融资,Sand.ai 曹越:为什么视频是通往世界模型最重要的路径

“每一代模型,我们都在押注一个非共识。” 文|邓咏仪 编辑|张雨忻 Sand.ai 创始人曹越,不太关心自己站在共识的哪一边。 Sand.ai 是一家视频生成模型和产品公司,成立于2024年1月。曹越创立Sand.ai 的故事也已经被讲过很多遍:在上一段创业“光年之外”戛然而止后,曹越很快就投入到 Sand.ai 的创业中,做视频生成模型。 彼时,市场的主流叙事是 Diffusion 路线,几乎没有人认为曹越选择的自回归(Autoregressive)路线是一种正解。 而在2025年初,发布基于自回归架构训练的模型 Magi-1 后,曹越很快意识到“只有画面是不够的”,于是团队开始探索音画同出。后来,Sand.ai 成为了除了Google VEO 3之外最早拿出音画同出模型的团队,Magi-1也在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。 2025年11月,曹越又下了一个赌注:决定带着团队将模型架构从 Dense 转向MoE,“那个时间点,国内应该几乎没有什么视频公司在全力推进这件事。” “发

“每一代模型,我们都在押注一个非共识。” 文|邓咏仪 编辑|张雨忻 Sand.ai 创始人曹越,不太关心自己站在共识的哪一边。 Sand.ai 是一家视频生成模型和产品公司,成立于2024年1月。曹越创立Sand.ai 的故事也已经被讲过很多遍:在上一段创业“光年之外”戛然而止后,曹越很快就投入到 Sand.ai 的创业中,做视频生成模型。 彼时,市场的主流叙事是 Diffusion 路线,几乎没有人认为曹越选择的自回归(Autoregressive)路线是一种正解。 而在2025年初,发布基于自回归架构训练的模型 Magi-1 后,曹越很快意识到“只有画面是不够的”,于是团队开始探索音画同出。后来,Sand.ai 成为了除了Google VEO 3之外最早拿出音画同出模型的团队,Magi-1也在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。 2025年11月,曹越又下了一个赌注:决定带着团队将模型架构从 Dense 转向MoE,“那个时间点,国内应该几乎没有什么视频公司在全力推进这件事。” “发布音画同出模型 Gaga-1 之后我们发现,在Dense架构下继续 Scale Up,成本会直线上升。视频模型存在一个不可能三角:成本、速度、效果。突破它只能靠研究手段,MoE 就是答案。”曹越说。 2026 年 Q3,Sand.ai 将发布新一代视频生成模型,采用 MoE 架构,兼顾高效推理与目前开源领域最大的参数规模。曹越表示:有信心做到头部水准,并且要把它开源给所有人。 △图注:摄影机里捕捉的影像,与出镜女孩的动作一致 △图注:Sand.ai 新模型所生成的视频 这家公司也刚刚完成两轮合计超亿美元融资,投资方包括 Look Capital、Lollapalooza Capital(王慧文家办)、九坤创投、经纬创投、和玉资本(MSA Capital)、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。 创业近三年,无论是押注自回归路线、做音画同出,还是 MoE 架构,曹越的底层思考都是同源的:“在终局的情况下,是每个人都可以去消费非常个性化的内容。那在这个前提下,你的内容生产成本一定要下降到很低。”曹越说。 不变的另一点是,曹越并不关心自己是否站在市场共识这一边。“一旦你过于关心他人的认知,大概率是你没有从第一性原理去思考问题。” 同样的答案出现在我们问他“世界模型是什么”的时候。 “现在很noisy,”曹越说,“每个人在说世界模型的时候,大概率都不知道在说什么,它变成了一个 Buzzword 。” 世界模型是 2026 年最说不清道不明的 AI 概念之一。杨立昆、李飞飞等学术巨擘押注了完全不同的方向;与此同时,曾以“世界模拟器”之名震动行业的 Sora,已经在 3 月暂时停运。在国内,这个领域也涌现了多家明星初创,而不少以前做 3D 生成、视频生成的公司,也都在高调转向世界模型。 一方面,世界模型寄托了人们对未来模型路线的想象——一个融合语言、图像、视频、音频的统一模型;另一方面,在模型竞争通道越发逼仄的形势下,这个词也成了 fomo 情绪的出口。 曹越的判断是:世界模型还在“前 GPT 时代”——GPT-1 出现之前的时代,数据不够、定义不清、技术路线也远未收敛。 但他可以确定的是,视频模型是通往那个终局最重要的路径。 “你要看什么数据距离世界的 Observation(观测)最接近,并且体量足够大,其实只有视频。” 在持续推进基础模型训练的同时,Sand.ai 已经在应用侧落子,探索过数字人、视频 Agent 等产品。今年 1 月上线的音乐 Agent 产品 VidMuse ,三个月已经做到千万美元 ARR 的体量。 “创业公司如果没有训练出 SOTA 模型的能力,很容易被模型厂商整合。”曹越并没有被“模型公司要不要做应用”这种时兴讨论所困扰,他表示,Sand.ai 还会继续边做模型边做应用。 在这轮融资完成之际,《智能涌现》与曹越聊了聊近三年来他的技术判断和应用探索。 以下为《智能涌现》对曹越观点的整理: 每一代模型,我们都在押注一个非共识 我们从第一天就认为,自回归是对视频数据最本质的建模方式。 市场上大家都在做纯 Diffusion 模型的时候,我们认为视频在时序上一定是因果关系,很多物理规律,本质是一个随着时间变化的函数 —— Predict Next Frame(预测下一帧)、Predict Next Second(预测下一秒),这是对视频这种数据最本质的训练范式。 我们是最早探索自回归视频生成的团队,去年发布的 Magi-1 在 Google-DeepMind 提出的物理真实性测试榜单 Physics-IQ 中取得第一,并长期保持领先,超越了 Nvidia 最新推出的旗舰级世界模型 Cosmos3-Super ,更远超 Sora-2 等其他纯 Diffusion 模型。 音画同出不只是功能升级,它是对世界状态更完整的压缩。 我们发布 Magi-1 之后发现,只有画面是不够的。声音和画面天然对齐,同时生成会让两者互相帮助——音画同出之后,哪怕只看画面,真实感也显著提升。本质上,同时拥有画面和声音,更接近对这个世界状态的表达,维度更高。所以我们在去年 5 月就开始探索音画同出,是除了 Google Veo-3 之外最早拿出音画同出模型的团队。 视频模型存在的不可能三角是:成本、速度、效果。去年我们就认为,只能靠研究突破, MoE 就是答案。 2025年我们决定转向 MoE,当时市场上没有几乎没有什么视频模型厂商公司全力在做这件事。 这是因为,发布音画同出模型 Gaga-1 之后,我们发现 Dense 模型继续 Scale Up 成本会直线上升——如果用 Dense 架构做到同样效果,推理成本至少贵 3 到 5 倍,训练成本也是。我们在那个时间点没有看到任何一家公司在做视频 MoE ,但我们认为它非常重要:第一,你要继续Scale Up 就必须搞定MoE;第二,如果你希望更多普通人用得起视频模型,就必须在同等效果下降低成本。 我们探索出了一套新的视频MoE架构和训练方案,跑通了视频模型做MoE的核心难题。 视频 MoE 和语言模型 MoE 面临的挑战不一样——视频的 Token 序列远比文本长,Token的冗余度也更高,因此通信开销、负载均衡和训练稳定性等问题都被放大了。我们为此在模型架构上做了多项创新,从而首次实现了超大规模视频 MoE 模型的稳定训练。 每一代模型我们都有一个Bet。Magi-1押注自回归,Gaga押注音画同出,新一代模型则是押注MoE。 7月我们要发布的新模型,就是这三代模型所积累的能力的汇合点——用MoE架构,把通用场景生成、音画同出、多镜头叙事、多参考生成全部融进同一个模型,目标是每个维度都做到SOTA。 为什么要融合?比如,Seedance 2.0 证明了多镜头叙事是一个刚需,这是一个我们之前没有认为那么重要的点。所以,类似这种功能在市场中被验证重要能力,最终都应该被 Merge(融合)到同一个模型里——它们不是互相独立的 Feature(能力),也会共同帮助模型取得更好的效果。 视频是通向世界模型的最重要路径,但也仅是一个中间加油站 “世界模型”这个词已经被完全滥用了。每个人在说世界模型的时候,脑海里冒出的可能都是不一样的概念。 每一个概念背后都代表一种结构,你要理解它背后到底是什么,才能跟别人讨论。但现在很多人只是通过各种渠道大概知道这是个什么东西,它纯粹变成了一个buzzword。 目前,大家对世界模型的理解差异还非常大;第二,对这个事情什么时候产生真实价值,大家的时间预期也不对齐。 如果一定要给世界模型做一个定义,我认为它还在前GPT时代(GPT-1出现之前的时代)。 首先,我们没有数据。我们生活在一个3D空间加时间轴的世界,但画面、声音、温度、压力等数据,维度非常高,而我们没有对世界完整的、大批量的观测数据(Observation)。 对于世界模型的训练路径,也完全没有收敛。有一些人认为要通过“预测下一个状态”来实现,但我们认为,真正该预测的不是任何人为定义(Human-defined)的隐藏状态,而是世界本身给你的原始观测。 我们认为,视频数据是走向世界模型最重要的数据类型。 首先,视频数据是对世界观测数据里,规模最大的数据类型。它同时编码了时间、空间、视觉、听觉——是4D物理世界经由摄像头投影后的结构化切片,在所有可获取的世界观测数据中,信息密度最高、维度最丰富、体量最大。 视频远不止画面,视频中保留的信息远比直觉上更多,触觉、温度、材料属性、甚至意图和情感,大量在人类感知中属于其他模态的信息,也被编码在视觉和听觉的时序变化中。 有人说要“预测下一状态”,但没有人能帮助模型定义“状态”究竟是什么。 很多人认为直接预测(Observation)可能会有很多冗余,效率不够高,从而希望人为定义状态(State)来提高其训练效率。 这个教训LLM已经演示过一遍了——多少人试图显式建模词的表征、句子的表征、段落的结构,阶段性也确实被证明“高效”,但最终在规模化的路线上,全被 predict next token 杀死了。我们不应该在多模态建模上重蹈覆辙。 历史已经反复证明,每次试图用人类先验去拆解世界,本质上都是在低估它的复杂度,建议全文背诵The Bitter Lesson(苦涩的教训)。 我们认为,真正该预测的不是任何human-defined的隐藏状态,而是世界本身给你的原始观测——建模raw data(在视频里即pixels、frames、video)未必是阶段性最高效的方案,但大概率是最Scalable、上限最高的方案。 如果要给世界模型定义几个要素,第一,它的核心是预测——但要警惕用人类先验去定义“该预测什么”;第二,它需要足够完整、多维度的数据来压缩真实世界的信息;也就是要能从当前的观测直接推演下一刻的观测,而不是从一个人为定义的隐藏状态推演下一个状态。 从这个角度看,今天大家讲的很多“世界模型”,其实还只是很早期的东西。真正的世界模型,不是生成一段看起来合理的视频,而是要理解一个 3D 空间加时间轴上的世界,并且能够持续预测下一刻的真实观测。 视频生成模型的演进,也是在一步步逼近世界模型的过程。 你可以把视频模型的演进想象成一个孩子认识世界的过程。最开始他只能看照片,世界是静止的——这就是图像生成。 然后画面动起来了,他能看动画了——这就是早期的视频生成。再然后画面有了声音,风声、脚步声、碰撞声都出来了——这就是音画同出。 接着��发现换个角度看同一个房间,桌子椅子还在原来的位置——这是3D空间一致性。 慢慢地,他知道杯子推到桌边会掉下去——这是因果关系。最后他能伸手推门,门真的会开——这就是实时交互。 重点是:没有人给这个孩子塞一本物理课本,告诉他“重力是9.8、声速是340”。他就是从看到的、听到的越来越完整的观测里,自己搞明白了世界怎么运转的。 视频模型的演进,走的是一模一样的路——不是人为给模型定义“状态变量”,而是让它从越来越完整的观测中,自己长出对世界的理解。 作为一家创业公司,阶段性还是要想明白你的“加油站”在哪。 对于创业公司而言,训练出 SOTA 的视频生成模型后,可以做内容生产,可以卖 Token,可以做 Agent。内容生产天然是一个巨大的方向,它的闭环周期比类似具身这样的领域要快得多,你可以一步一步走到终局(AGI)。 要做模型,也要做产品 做模型的公司做垂直整合之后,成本和体验都会更好。 为什么要模型和产品都做? Claude Code 就是这样——Cursor 占了 Claude 很大比

#llm#gpt-#openai#anthropic#deepmind

📌 Kaynak

Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →
📱
News AI World — Mobil uygulama
Bu haberleri 45 dilde, anlık çeviriyle cebinde. Erken erişim için Gmail adresini bırak.
← Tüm haberlere dön