强化学习 突破级 暂无讲解视频
发表时间
2026-05-29
arXiv
2605.30834

核心要点

问题/背景
这篇把 VLA/机器人可靠性从离线 success rate 推向 runtime monitoring:系统要在执行中尽早发现失败,而不是事后评估。
方法/机制
Hide-and-Seek 用 trajectory-level supervision 学出 step-level failure signals,避免昂贵 action resampling 或外部监督,并结合 conformal prediction 处理准确率-及时性权衡。
结果/证据
收录价值在于它提供了 embodied AI safety 的可复用监控 primitive:coarse labels -> localized failure signals -> runtime intervention。
收录价值
风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。
完整收录解读

这篇把 VLA/机器人可靠性从离线 success rate 推向 runtime monitoring:系统要在执行中尽早发现失败,而不是事后评估。

Hide-and-Seek 用 trajectory-level supervision 学出 step-level failure signals,避免昂贵 action resampling 或外部监督,并结合 conformal prediction 处理准确率-及时性权衡。

收录价值在于它提供了 embodied AI safety 的可复用监控 primitive:coarse labels -> localized failure signals -> runtime intervention。

风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。

论文摘要

Hide-and-Seek 将 VLA 故障检测问题表述为粗粒度监督的轨迹级别标注学习。通过结合轨迹间和轨迹内对比学习目标,它定位了指示故障的动作并生成了无步骤级别标注的具有时间结构的故障信号。它在 LIBERO、VLABench 和一个真实机器人平台上评估了 OpenVLA、pi_0 和 pi_0.5 策略。

英文原文

Hide-and-Seek formulates VLA failure detection as coarsely supervised learning from trajectory-level labels. By combining inter-trajectory and intra-trajectory contrastive objectives, it localizes failure-indicative actions and produces temporally structured failure signals without step-level annotation. It is evaluated on LIBERO, VLABench, and a real robot platform across OpenVLA, pi_0, and pi_0.5 policies.

相关论文

链接