AI 硬件与加速器

Streamlined optical training of large-scale modern deep learning architectures with direct feedback alignment

发表：2026-05-19 · 突破级

这篇 PNAS 论文处理 AI 训练硬件的根问题：现代深度学习训练几乎完全依赖电子加速器和 backpropagation，能耗与规模扩展压力越来越大。作者在 hybrid electronic-photonic platform 上实验实现 direct feedback alignment，用 optic...

Dr. RTL: Autonomous Agentic RTL Optimization through Tool-Grounded Self-Improvement

发表：2026-04-16 · 突破级

问题与背景：自动 RTL 优化常在小规模人工退化设计上评测，反馈粗糙且缺少工业 EDA workflow，离真实 PPA 优化较远。方法与新意：Dr. RTL 在工业 EDA 流程下做 critical-path analysis、并行 RTL rewriting 和 tool-based evaluatio...

DeepStack: Scalable and Accurate Design Space Exploration for Distributed 3D-Stacked AI Accelerators

发表：2026-04-06 · 突破级

这篇论文瞄准的是 AI hardware 里一个越来越关键的结构性问题：随着大模型推理走向跨 chiplet、跨 stack 的 3D memory-rich 系统，设计瓶颈不再只是单个 accelerator kernel，而是 3D memory semantics、interconnect、paralle...

Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation

发表：2026-03-27 · 突破级

随着异构模拟-数字加速器逐渐成熟，真正的瓶颈不再只是单个硬件单元效率，而是如何把神经网络各层合理映射到不同精度、不同噪声特性的硬件上，同时兼顾能效和精度。这个问题如果靠逐模型、逐层手工搜索，成本极高，也很难形成稳定部署流程。这篇论文提出 Mixed-Precision Supernetwork，把量化层和受模...

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

发表：2026-03-10 · 突破级

这篇论文处理的是产品开发实践里一个很硬的问题：工程分析自动化通常依赖脆弱的脚本接口、固定数据格式和文档化流程，一旦设计迭代引起命名、单位、输入格式或局部方法变化，原有自动化支持就会失效。与其继续把问题理解成‘写更复杂的脚本’，论文把它重构成 agentic orchestration 问题。 DUCTILE 的...