Trainable neuromorphic spintronic hardware Via analog finite-difference gradient methods
这篇 Nature Communications 论文解决 analog/spintronic neuromorphic hardware 的关键训练瓶颈:设备行为复杂且有变异性,依赖过度简化软件模型会导致训练和真实硬件脱节。 作者证明 magnetic tunnel junctions 可以生成可调且复杂的非...
这篇 Nature Communications 论文解决 analog/spintronic neuromorphic hardware 的关键训练瓶颈:设备行为复杂且有变异性,依赖过度简化软件模型会导致训练和真实硬件脱节。 作者证明 magnetic tunnel junctions 可以生成可调且复杂的非...
这篇 Science Advances 论文面向自动驾驶、机器人和智能监控中的高反差视觉识别问题,提出把 HDR 能力直接前移到光电探测器层,而不是依赖多曝光融合或复杂后处理。 器件通过 engineered tunneling mechanism 实现 bias-controllable、连续可调的动态范围...
这篇 PNAS 论文处理 AI 训练硬件的根问题:现代深度学习训练几乎完全依赖电子加速器和 backpropagation,能耗与规模扩展压力越来越大。 作者在 hybrid electronic-photonic platform 上实验实现 direct feedback alignment,用 optic...
这篇 Nature Communications 论文直接连接 AI 硬件和扩散模型推理:用 resistive memory 构建 neural differential equation solver 服务 score-based diffusion。 它的价值不只是器件 novelty,而是把新型存储/计...
这篇 Nature Communications 论文针对 optical neural networks 的有效深度瓶颈:传统空间光子网格多为被动线性变换,累积损耗导致信噪比快速退化。 作者把可编程增益放入 time-synthetic ONN,让计算沿严格前向的时间演化展开,避免空间反馈和寄生反射带来的增益...
consumer GPU 训练这条线最现实的瓶颈不是算法本身,而是低显存和慢 PCIe 下 pipeline parallelism 很容易被 stage 绑定拖死,尤其是 LM head 这类不均匀 stage 会把整条 pipeline 的吞吐压到最重那张卡上。RoundPipe 正面解决的就是这个结构性问...
这篇 Nature Communications 论文面向可解释 tree-based AI 的硬件加速问题。树模型在表格数据上可靠且可解释,但由于数据局部性差和依赖强,传统硬件上扩展成本高。 作者提出 MoS2 flash-based analog CAM 与 soft tree-based models 的...
问题与背景:Diffusion Transformers 在科学计算和高分辨率生成中需要多 GPU 推理,Ulysses sequence parallelism 可扩展但 all-to-all collective 成为主要延迟。 方法与新意:CoCoDiff 利用 Q/K/V 计算差异和相邻 denoisi...
问题与背景:自动 RTL 优化常在小规模人工退化设计上评测,反馈粗糙且缺少工业 EDA workflow,离真实 PPA 优化较远。 方法与新意:Dr. RTL 在工业 EDA 流程下做 critical-path analysis、并行 RTL rewriting 和 tool-based evaluatio...
问题与背景:AI for hardware design 不只应生成 RTL,还应能改进底层 EDA 工具本身。ABC 是经典逻辑综合系统,若 agent 能在完整代码库上自演化,会改变 EDA 工具开发模式。 方法与新意:系统让多 LLM agents 在整个 ABC codebase 上迭代重写组件,每轮编...
问题与背景:硬件设计 LLM 评测多停留在孤立 HDL 生成,缺少 repo-scale bug repair 和真实 regression flow。 方法与新意:HWE-Bench 从六个开源硬件项目的真实 bug-fix PR 构造 417 个任务,覆盖 RISC-V cores、SoCs 和 roots...
这篇论文处理的是超大模型训练在显存维度上的系统瓶颈。常规大模型训练以 GPU 显存为中心,参数、优化器状态和 autograd metadata 长驻设备;即使有 ZeRO/offload,100B+ 级别全精度训练通常仍依赖多 GPU 和复杂分布式系统。 MegaTrain 反过来把训练系统设计成 memor...
这篇论文瞄准的是 AI hardware 里一个越来越关键的结构性问题:随着大模型推理走向跨 chiplet、跨 stack 的 3D memory-rich 系统,设计瓶颈不再只是单个 accelerator kernel,而是 3D memory semantics、interconnect、paralle...
随着 large-model inference 越来越向 tile-based、chip-scale 和 wafer-scale accelerator 迁移,attention 的瓶颈不再只是 kernel 算子本身,而是 tile fabric、HBM 访问和数据流组织方式的整体协同。单纯移植 GPU 上...
MoE 在 edge / low-batch inference 场景里很有吸引力,但真实部署时会同时撞上 expert sparsity、on-chip memory 限制、off-chip access 开销和 workload imbalance。随着 chiplet interconnect 带宽提升...
随着异构模拟-数字加速器逐渐成熟,真正的瓶颈不再只是单个硬件单元效率,而是如何把神经网络各层合理映射到不同精度、不同噪声特性的硬件上,同时兼顾能效和精度。这个问题如果靠逐模型、逐层手工搜索,成本极高,也很难形成稳定部署流程。 这篇论文提出 Mixed-Precision Supernetwork,把量化层和受模...
现代 AI accelerator 的复杂度越来越依赖 firmware 与多层 memory hierarchy 的协同,结果是开发瓶颈逐渐从单个 RTL 模块验证,转移到硬件与生产 firmware 的系统级联合调试。传统上很多团队仍依赖 FPGA emulation 来做 integration debu...
现有 evolutionary search 即使接入 LLM,也往往只是把模型当候选生成器,真正的 mutation、crossover 和局部修补逻辑仍然由人手工定义。AVO 的切入点更深:不是让 agent 在既定搜索框架里吐候选,而是让 agent 直接充当 variation operator,自主读...
PF-LLM tackles a classic microarchitecture bottleneck: hardware prefetchers must decide when and how aggressively to prefetch under extremely tight runtime...
这篇论文针对 hybrid Mamba-Transformer 模型提出了一个硬件层面的关键观察:prefill 和 decode 不只是负载不同,而是对架构与封装的需求都不同,因此单一同构加速器很难同时做好两者。对本仓库来说,这正是 AI 硬件设计里最值得关注的“结构性设计结论”。 DUET 的做法是把 pr...
这篇论文聚焦产品级机械设计里最实际也最缺数据支撑的问题之一:在 CAD 阶段尽早判断零件在具体制造工艺下是否可制造、制造难度有多高。现有学习式 DFM 工作要么 manufacturability 定义混乱,要么数据只覆盖可制造样本,导致模型难以学习真正有用的边界。 论文的核心贡献有两部分。第一,它把 manu...
这篇论文关注的是极端边缘设备上的一个关键缺口:很多 edge AI 论文讨论 on-device inference,却默认训练和适配仍在云端完成。TrainDeeploy 直接把问题推进到 ultra-low-power、memory-constrained SoC 上的本地训练与微调,尤其覆盖了 Trans...
这篇论文处理的是产品开发实践里一个很硬的问题:工程分析自动化通常依赖脆弱的脚本接口、固定数据格式和文档化流程,一旦设计迭代引起命名、单位、输入格式或局部方法变化,原有自动化支持就会失效。与其继续把问题理解成‘写更复杂的脚本’,论文把它重构成 agentic orchestration 问题。 DUCTILE 的...
这篇论文处理的是当前光计算加速器里一个很实际的问题:现有 photonic accelerator 大多围绕 2D matrix-vector multiplication 设计,而 3D 卷积网络在真实系统里需要额外做高阶张量重排与同步,导致内存与时延开销回落到电子域。 作者提出的 3D-TPE 通过时间、波...
这篇论文解决的是 LLM 在线服务里一个非常现实的硬件问题:现有近存计算/NMP 方案通常假设比较规整的执行流,但真实 serving 工作负载会不断变化,KV cache 管理和 attention 执行流都高度动态。对本仓库来说,它属于 AI accelerator 设计里最值得收的一类,即直接面向 LLM...
AI 加速器设计里,数值格式往往被当作局部实现细节,但它实际上直接决定 MAC 面积、功耗、时序和 block scaling 复杂度。AetherFloat 的切入点就在这里:它不是再做一个小变体,而是从 AI accelerator co-design 角度重新设计 floating-point famil...
LLM 用于 RTL 生成已经不少,但真正卡住工业可用性的仍然是 formal correctness。尤其在 datapath-centric、规格模糊且复杂度高的设计里,单靠 simulation-driven debug 很难建立可靠的设计闭环。 FormalRTL 的关键做法是把 software re...
这篇工作针对边缘侧部署大语言模型时最硬的瓶颈之一:片上存储容量与带宽不足导致模型装不下、跑不快,也难以做轻量适配。作者把问题收敛到内存墙,而不是只做局部算子优化,因此切入点对端侧 AI 硬件是成立的。 方法上,TOM 不是单纯做 ternary 量化,也不是单纯做 ROM 存储,而是把 ternary 权重、R...
这篇论文处理的是 photonic AI accelerator 里最容易停留在器件层演示的问题:很多工作有单点器件亮点,但缺乏足够清晰的 AI compute architecture 设计。SKYLIGHT 的贡献在于把拓扑、波长路由、累加、编程方式和 3D stack 统一设计成面向实时 AI infer...
This Science Advances paper proposes a neuromorphic hardware route for multitask learning using electroluminescent perovskite quantum-dot synaptic devices....
RF 电路自动化长期受限于一个现实问题:很多方法能做拓扑选择和参数优化,但到 manufacturable layout 就断掉了。组件模型过于简化、routing 能力不足,使得 AI 结果很难真正落到 GDSII。 这篇论文提出一个 ML-driven RF physical synthesis frame...
这篇论文针对 LLM 生成 RTL/Verilog 代码时最关键的可靠性缺口:仅靠语法检查或有限 testbench 仿真,很难保证时序语义、协议边界和局部修复后的不回归。作者把 RTL 代码生成重构为一个带共享设计契约、时序追踪、局部补丁和形式化验证的多代理闭环,而不是普通的单次生成或反复全文件重写。 方法上...
这篇论文聚焦连续运行的临床级可穿戴设备如何在边缘侧长期执行高频生理信号分析。问题不只是分类精度,而是如何让设备在周到月尺度的持续监测中真正可部署,避免把大量原始数据回传云端或依赖高功耗无线链路。 论文提出了一个把临床级 biosignal acquisition、边缘侧 AI 推理和长期 автоном运行放到...
参数化 CAD 模型生成一直是产品级机械设计里最难自动化的环节之一。过去的 text-to-CAD 或 image-to-CAD 方法往往依赖监督注入、编辑性弱,而且难以真正利用大模型已有的生成先验。 ReCAD 把这个问题重写成一个带有参数化代码指导的多模态 CAD 生成任务。它先通过重写 CAD scrip...
这篇论文处理的是边缘智能的一个硬问题:如何在高吞吐模拟信号进入系统时,把感知、推理甚至学习尽量压到片上完成,而不是先把原始信号数字化后再交给传统电子处理链。这个问题对多模态 edge hardware 很关键。 作者提出 photonic edge intelligence chip,把图像、光谱和射频等多模态...
模拟/混合信号电路设计长期依赖人工经验,设计周期长、仿真开销高,而且很多 AI 自动化方法虽然能优化参数,却缺乏解释性,也很难被设计人员真正接入日常流程。 AnaFlow 提出一个多 agent LLM workflow:不同 agent 分别解释 topology、理解设计目标、推进参数更新,并通过 adap...
柔性生物电子设备开发天然是一个跨学科、长链条流程:从高层设计目标、器件布局,到工艺流程、缺陷检查和信号分析,通常都需要大量专家介入,扩展性和可复用性都很差。 DeviceAgent 把 LLM、VLM 和领域专用计算工具整合成一个自主多模态 agent,并用 context memory 串起整个设备开发链条...
这篇论文针对小尺度软体机器人在复杂环境中长期受限的问题:结构柔顺性带来适应性,但一旦需要同时具备多模态感知、局部计算、闭环决策和稳定运动,传统软体机器人平台往往会在集成度、实时性和鲁棒性上失效。论文因此不把机器人仅仅当作一个控制对象,而是把可编程柔性电子部件本身视为形态、感知、执行和计算一体化的构件。 作者提出...
随着 AI 训练、推理和高性能科学计算对带宽、能耗与延迟的要求同时提高,主动光子集成电路正在从单点器件走向大规模系统。但一旦器件数量和异构程度上来,依赖人工脚本和局部修补的物理实现流程就会迅速失效,电子-光子联合设计自动化因此成为真实瓶颈。 这篇论文提出了一个面向 large-scale active PIC...
从图像或草图生成真正可编辑、可制造的 CAD 模型,是 AI 进入产品与机械设计流程的关键一步。很多 3D 生成工作可以输出 mesh、voxel 或 point cloud,但这些表示并不能直接进入工程设计与制造流程,因此和真实 CAD 工作流之间一直有明显断层。 GenCAD 把这个问题建成 image-c...