智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-09
arXiv
2603.08260

收录解读

这篇论文抓住了 embodied AI 一个非常实际的瓶颈:高质量交互数据难扩、纯大模型自举容易塌缩、而少量人工示范又远远不够支撑通用能力增长。作者把问题重写成“如何做一个能自我扩展的数据引擎”,而不是只讨论某个 VLA 模型结构本身。

Seed2Scale 的核心是异构角色分工:小模型负责并行采集和探索,大模型负责评估和打分,目标模型则从筛过噪声的数据中学习。具体来说,它用轻量 VLA `SuperTiny` 作为 collector,以强 inductive bias 支撑广覆盖探索;同时用预训练 VLM 做 verifier,对海量轨迹做成败判断和质量排序,从而把少量 seed demonstrations 扩展成可持续增长的数据闭环。

这条路线对 embodied intelligence 很重要,因为它把“模型自提升”落在 data engine 上,而不是继续把改进全部压给参数规模或单次训练配方。作为 small-to-large synergy 与 multimodal evaluation 驱动的数据生产系统,它对机器人自举、自动数据采集、以及通用 embodied foundation policy 的后续训练都有明显工作流价值。

它还不到更高一级,主要因为目前的证据仍然集中在数据扩展闭环和 success-rate 提升,距离成为通用 embodied self-evolution 蓝图还差更多跨平台、跨任务、跨执行器验证。

链接