智能体与自主科学 颠覆级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.06425

收录解读

这篇论文重新定义了 agent、world model 和传统计算机之间的边界。它提出 Neural Computer(NC):让神经网络的潜在运行时状态同时承载计算、工作内存和 I/O,而不是让模型只作为外部操作系统、GUI 或工具链上的 agent。长期目标是 Completely Neural Computer(CNC),即具备通用可编程性、稳定执行、可复用能力和显式更新治理的 learned runtime substrate。

论文不是只给概念图,而是用 Wan2.1 视频模型构建了两个原型:NCCLIGen 用文本/初始终端帧生成 CLI 交互 rollout,NCGUIWorld 用屏幕像素和鼠标/键盘动作生成 GUI 交互 rollout。实验系统性评估了数据质量、caption 粒度、动作注入位置、动作编码和光标监督等设计变量,并指出当前模型主要学到的是 I/O 对齐、界面渲染和短时程控制,而不是可靠符号计算。

它值得升级为正式收录,并给 `disruptive`,因为它把“计算机使用智能体”的问题从外部软件栈操作,推进到“模型自身是否能成为运行时”的系统级问题重构。更重要的是,论文给出了一组可复用设计结论:高质量目标导向轨迹比 1400 小时随机探索更有价值;GUI 微操需要把坐标翻译成显式视觉光标;深层 action injection 明显优于浅层条件注入;reprompting 造成的算术提升应被解释为条件渲染而非原生推理。

它不是 `paradigm`,因为当前原型离 CNC 的核心要求仍很远:native symbolic reasoning 只有 4% 算术准确率,83% 的提升主要来自 reprompting/条件注入;能力安装、长期复用、行为一致性、run/update 边界和治理机制都还停留在路线图层面。它的价值在于建立一个强问题框架和早期工程约束,而不是已经实现了可替代传统计算机或 agent stack 的神经运行时。

链接