Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

强化学习突破级暂无讲解视频

收录解读

Odysseus 把 VLM 扩展到 100+ turn 的游戏决策任务，目标是长程交互、视觉状态理解和策略学习，而不是短任务 QA。

游戏环境在这里不是娱乐应用，而是可控、长程、多状态的 embodied/interactive decision benchmark。它能暴露 VLM 在规划、记忆、探索和反馈利用上的限制。

它值得正式收录，因为本库收 game/NPC/procedural environment 方向时要求改变 interactive evaluation 或 agent training workflow。Odysseus 符合长程 VLM-RL 评测和训练模式。

它没有更高，是因为游戏环境到真实世界 embodied intelligence 的迁移仍有限，且长期表现可能依赖特定环境设计。