多模态基础模型
突破级
暂无讲解视频
收录解读
ParaVT 处理长视频理解中的 agentic tool-use 问题:现有 RL 方法通常顺序调用视频裁剪等工具,单次错误会传播,多轮上下文被污染,推理成本随工具轮数线性增长。
论文提出 parallel video tool calling,一轮并行分发多个时间窗裁剪,让多 agent 工具结果互相补偿,并减少上下文污染。
训练中发现 Tool Prior Paradox:强预训练工具先验既帮助探索工具调用,也会破坏结构化格式并诱发 skip-tool reward shortcut;PARA-GRPO 用结构 token 局部 format reward 和 frame-budget randomization 缓解该问题。
它值得正式收录,因为它把多模态视频理解、工具调用和 RL 后训练连接起来,给 multimodal agents 的并行工具使用提供了明确训练范式。