The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

AI 硬件与加速器突破级有讲解视频

发表时间: 2026-02-26
arXiv: 2603.08741

收录解读

AI 加速器设计里，数值格式往往被当作局部实现细节，但它实际上直接决定 MAC 面积、功耗、时序和 block scaling 复杂度。AetherFloat 的切入点就在这里：它不是再做一个小变体，而是从 AI accelerator co-design 角度重新设计 floating-point family。

论文提出 block-scale-free 的 quad-radix 浮点架构，用 lexicographic one's complement unpacking、base-4 scaling 和 explicit mantissa 替代 IEEE 754 的一组结构假设，目标是减少 NPU 中数值格式带来的面积、电源和 block-scaling 逻辑负担。结果上，它给出了 MAC 单元面积、功耗、时序和动态范围上的系统级收益，而不是停留在格式定义本身。

这满足本仓库对 AI hardware 的收录标准，因为它影响的是 accelerator architecture design space，而不是单一 kernel 或常规电路优化。数值格式如果能稳定减少 block-scaling 依赖，对大规模 AI inference/training pipeline 的芯片实现会有持续外溢。

之所以不升到更高一级，是因为新的数值格式家族要真正改变行业实现，还需要软件栈、编译器、训练配方和芯片生态一起跟上。目前它更像很强的 architecture proposal，而不是已经被广泛验证的标准。

解读视频

B 站 YouTube

链接

论文链接