智能体与自主科学
突破级
有讲解视频
收录解读
AIRA 把 agentic AI 用到模型架构发现本身:AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合,AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。
论文报告 agent 发现的 AIRAformer 与 AIRAhybrid 在 1B 规模上超过 Llama 3.2 和 Composer 基线,并展现更高效的 scaling frontier。它不是手工架构微调,而是用 agents 进行可迭代架构搜索。
它值得正式收录,因为它直接触及 AI self-improvement 的核心问题:AI 系统能否发现下一代模型结构,而不只是调 prompt 或训练 recipe。
它没有更高,是因为结果仍需独立复现,并且架构搜索成本、评估泄漏和更大规模稳定性还没有被充分验证。