ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

多模态基础模型突破级暂无讲解视频

发表时间: 2026-05-19
arXiv: 2605.20342

收录解读

ParaVT 处理长视频理解中的 agentic tool-use 问题：现有 RL 方法通常顺序调用视频裁剪等工具，单次错误会传播，多轮上下文被污染，推理成本随工具轮数线性增长。

论文提出 parallel video tool calling，一轮并行分发多个时间窗裁剪，让多 agent 工具结果互相补偿，并减少上下文污染。

训练中发现 Tool Prior Paradox：强预训练工具先验既帮助探索工具调用，也会破坏结构化格式并诱发 skip-tool reward shortcut；PARA-GRPO 用结构 token 局部 format reward 和 frame-budget randomization 缓解该问题。

它值得正式收录，因为它把多模态视频理解、工具调用和 RL 后训练连接起来，给 multimodal agents 的并行工具使用提供了明确训练范式。

链接

论文链接项目代码代码