Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

智能体与自主科学突破级有讲解视频

收录解读

AIRA 把 agentic AI 用到模型架构发现本身：AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合，AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。

论文报告 agent 发现的 AIRAformer 与 AIRAhybrid 在 1B 规模上超过 Llama 3.2 和 Composer 基线，并展现更高效的 scaling frontier。它不是手工架构微调，而是用 agents 进行可迭代架构搜索。

它值得正式收录，因为它直接触及 AI self-improvement 的核心问题：AI 系统能否发现下一代模型结构，而不只是调 prompt 或训练 recipe。

它没有更高，是因为结果仍需独立复现，并且架构搜索成本、评估泄漏和更大规模稳定性还没有被充分验证。