CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation
扩散模型定制编辑常用多个 LoRA 表达不同视觉效果,但部署时动态加载大量 adapters 会带来内存、延迟和参数干扰。 CollectionLoRA 用 multi-teacher on-policy distillation 把多个效果收进一个 LoRA,目标是在一个 adapter 中复用多种编辑能力...
扩散模型定制编辑常用多个 LoRA 表达不同视觉效果,但部署时动态加载大量 adapters 会带来内存、延迟和参数干扰。 CollectionLoRA 用 multi-teacher on-policy distillation 把多个效果收进一个 LoRA,目标是在一个 adapter 中复用多种编辑能力...
dense retriever 是 RAG 和 agent memory 的核心组件,但为什么某个 query-document pair 得到高分通常很难解释。 Xetrieval 从 embedding-level 机制解释 dense retrieval,试图找出塑造检索行为的 latent factor...
现实 RAG/agent retrieval 不只面对文本,还要访问表格、关系数据库、知识图谱和属性图;把它们全部压进统一向量空间会丢失结构能力。 OmniRetrieval 的思路不是同质化,而是识别合适知识源,并派发 source-native queries 到各自执行引擎,保留 schema、ontol...
LoRA 常被当作知识更新和能力注入接口,但它到底能记住多少、如何记、何时会精确回忆,仍缺少定量规律。 这篇论文把 LoRA 用作 latent-space parametric memory probe,提出 Parametric Memory Law,将 loss reduction、effective p...
这篇论文把长上下文处理重新表述为 sleep-like consolidation:模型不必无限增长 KV cache,而是周期性把近期上下文压入可持续状态。 方法在 sleep 阶段对累积上下文做离线 recurrent passes,并通过 learned local rule 更新 SSM blocks...
ThriftAttention 处理长上下文推理中的注意力成本问题:全 FP16/FP8 计算昂贵,而统一低精度又会破坏关键 token 或关键头的精度。 论文提出 selective mixed precision,让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合,从而降低...
Gated DeltaNet-2 improves linear attention by decoupling the erase and write operations that update the recurrent memory state. The method generalizes earli...
Equilibrium Reasoners 提出一种不同于 CoT 采样和 verifier reranking 的 reasoning scaling 思路:把推理看成向 latent attractor 收敛。 模型学习可迭代更新的吸引子动力学,在测试时通过更多迭代接近稳定解,而不必依赖外部 verifie...
GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题,而不是只堆更复杂检索路径。 论文发布 23K RLVR 样本、构造流水线和训练代码,覆盖 9 类长上下文能力,并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。 它值得正式收录,因为它把长上下文能力后训练做成开放 re...
这篇论文重新审视长上下文推理的 sparse attention 路径:不从头训练原生稀疏模型,也不只做启发式 token eviction,而是利用 full-attention 模型已经存在的内在稀疏性。 方法识别少量真正需要完整长上下文处理的 retrieval heads,并用低维 token inde...
MemLens 针对多模态长期记忆提出系统评测:问题来自多轮、多 session 对话,并明确要求模型利用图像证据、时间顺序、知识更新和拒答能力。 论文关键价值在于把 long-context LVLM 和 memory-augmented agents 放在同一评测接口下比较。结果显示长上下文模型短上下文表现...
这篇论文关注 looped language models 中计算和记忆的解耦。Looped transformer 的吸引力在于重复使用计算结构来扩展推理深度,但内存管理会成为瓶颈。 Memory-Efficient Looped Transformer 的价值是把这一瓶颈作为架构问题处理。对 inferen...
这篇论文提出 Fast-Slow Training,把 LLM 适应拆成两个时间尺度:prompt/context/agent layer 作为 fast weights,模型参数作为 slow weights,并在训练中交替优化。 核心问题是 parameter-only RL 容易把任务细节硬写进权重,造成...
Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 Instruction tuning for...
delta-mem: Efficient Online Memory for Large Language Models 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 Compact online associative memory state coupled to frozen att...
这篇论文处理的是持续后训练里的核心风险:模型学习新能力时会破坏旧能力,而这个问题不是简单调小学习率就能解决。它把 forgetting 解释为几何冲突。 几何视角有复用价值,因为它给 LoRA、continual post-training、domain adaptation 和 capability inje...
LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。 基准包含 451 个手工问题,覆盖 static state recall、dynamic state trackin...
这篇论文落在 test-time memory 和 inference-time adaptation 的交叉点。它关注的不是把更多上下文塞进模型,而是在测试时形成、转化和巩固可用记忆。 Mela 的价值在于把 memory consolidation 明确变成推理期机制。对长期 agent 来说,记忆系统不能...
MemReread 针对 agent memory 的一个具体失败模式:线性读文档时动态记忆会覆盖掉潜在证据,而后续检索又可能被无效 query 干扰。 它保留 streaming reading 的效率,但在最终记忆不足时触发问题分解和 rereading,从而恢复早期丢失的间接事实,并用 RL 学习何时、读...
这篇论文的关键推进不是再做一个 verifier-RL 变体,而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说,模型不只消费既有题目,而是通过 Proposer-Solver 双角色自己扩展 curriculum。 ANCORA 真正有方法味道的地方在于它不是无约束 self-play...
大模型生成长度一直很重要,但以前大多停留在 sequence-level heuristic:多给一点 prompt 约束、或者粗粒度调 budget。LenVM 把这个问题正式改写成 token-level value estimation,让模型在每个 token 上显式预测剩余生成长度。 这篇工作的可复用...
dLLM 方向一直有一个结构性问题:就算 teacher 很强,现有 distillation 也大多局限在同构 student 上,真正到了 teacher 和 student 架构、attention 机制、tokenizer 都不一致的场景,知识迁移接口就会迅速失灵。TIDE 直接把这个空白补成了一个明确...
这篇论文针对 RLVR / post-training 一个很实在的问题:要想加速 on-policy 探索,最好能注入“比当前策略更强、但又别离得太远”的 off-policy 轨迹。现有做法通常只能二选一,要么外部教师质量高但分布太远,要么历史轨迹接近但上限有限。 NPO 的关键想法是直接使用同一训练 ru...
这篇论文延续的是 test-time training / parameter-as-memory 这条线里最难的那个问题:如何在不保留全部上下文缓存的情况下,把历史真正“吸收”进参数,同时不破坏原模型的因果行为。过去很多方法的失败点在于只在 token projection 层面做拟合,结果既容易过拟合,也学...
这篇论文针对 test-time training 在 reasoning model 上一个已经开始暴露但还没被解决的核心问题:算力继续加上去,现有方法却很快 plateau,而且多样性还会塌。作者把根因定位到 self-generated reward drift,也就是 policy 自己变了,但 cri...
这篇论文对应用户提到的 Kimi/Linear 线索中最实质的系统突破:随着 linear attention 或状态压缩模型降低 KVCache 传输压力,prefill 与 decode 有机会跨数据中心解耦。它的重点不是一个模型分数,而是推理服务边界从单集群扩展到跨地域资源编排。 论文提出 Prefill...
问题与背景:test-time compute scaling 有效但昂贵,真实部署必须决定哪些输入值得多采样/搜索/长推理,哪些可以低成本回答。 方法与新意:论文把问题形式化为平均 compute budget 约束下最大化准确率,用 Lagrangian relaxation 分解为单样本 oracle a...
问题与背景:speculative decoding 的核心瓶颈是 drafter 能否提出足够长、足够可能被 target 接受的候选。DFlash 已证明 block diffusion drafter 很强,但单轮只验证一条轨迹,限制了可接受长度。 方法与新意:DDTree 从 block diffusi...
问题与背景:agentic reasoning 的瓶颈不只是模型能力,还包括长上下文、多步工具调用和长输出场景下的吞吐成本。Nemotron 3 Super 把这个问题落在开放模型架构层面:120B 总参数、12B 激活参数、最长 1M context,并以 agentic 软件工程、terminal use、...
这篇论文系统研究 on-policy distillation 的成功条件和失败机制。OPD 已经成为大模型 post-training 的重要技术,但过去更多依赖经验 recipe,缺少对 teacher-student 动态的可解释规律。 作者提出两个关键条件:学生和老师需要兼容的 thinking pat...
ZoomR 关注长推理输出时的 KV cache 成本。现有 KV cache 优化多压缩长输入上下文,却保留完整生成过程 KV;但复杂推理往往产生很长中间 thoughts,导致输出侧 cache 成为瓶颈。 论文让模型把冗长思维动态压缩成 summaries,并用多粒度 KV retrieval 策略在 s...
这篇论文重新定义 RAG 的控制接口:传统 RAG 把检索当成外部模块或独立 controller,模型生成与检索决策往往松耦合,尤其在多步问题中容易出现检索时机、查询改写和终止条件不协调。 作者提出 Retrieval as Generation,并实现 GRIP:模型通过生成控制 token 自己决定何时检...
SPPO 针对长链推理 RL 中 token-level PPO 的两个痛点:跨 CoT horizon 的 temporal credit assignment 不稳定,以及 value model 带来的显存成本。GRPO 等 critic-free 方法缓解部分问题,但需要多样本 baseline,吞吐受...
这篇论文处理知识密集型推理中的一个关键缺口:数学和代码任务的中间步骤常可局部验证,但医学等知识密集领域的推理步骤往往需要跨外部知识源综合判断,错误会沿推理链传播而不被发现。传统 process reward model 多是在轨迹完成后打分,难以进入动态推理搜索。 作者提出 Process Reward Age...
这篇论文聚焦长上下文推理中的一个具体失败模式:模型在进行一段推理后,重新从上下文中定位证据的能力会快速下降。作者将其称为 lost-in-thought,并指出长上下文推理不是简单地“先读全上下文再推理”,而是检索与推理相互交织的过程。 RecaLLM 的方法是把显式 in-context retrieval...
这篇论文挑战 LLM post-training 中“必须严格 on-policy”的常见假设。由于生成 rollout 成本很高,完全丢弃旧样本可能并不是最优;经验回放在经典 RL 中成熟,却在 LLM RL 中长期被认为会因 stale data 失效。 作者系统研究 replay buffer 的设计权衡...
diffusion language models 一直有并行生成潜力,但真正把 decoding parallelism 开大时,模型很容易因为错误累积而迅速掉质,因此很多实现只能保守地换一点吞吐,换不来真正激进的推理加速。问题不在于 dLLM 没有并行性,而在于现有 decoding 形式太脆弱。 DMax...
标准自回归语言模型哪怕在连续 token 已经高度可预测时,仍然一次只生成一个 token,这使得高吞吐推理长期受限在非常保守的 decoding interface 上。多 token generation 因此一直重要,但很多方案需要附加 draft model、额外 heads,或者直接改底层架构。 MA...
这篇论文关注一个对后训练和模型控制都很关键的问题:模型通过指令微调或推理训练获得的行为,是否可以在不重新训练目标模型的情况下迁移到另一个模型。作者提出 Master Key Hypothesis,认为能力可以表示为低维潜在子空间中的方向,并能通过线性子空间对齐跨模型映射。 方法上,Unlock 先用同一家族或相...
这篇论文针对 tool-integrated reasoning 的一个实际部署盲点:只看正确率、token 数或 tool call 数,并不能解释真实延迟和成本。工具调用会打断 LLM 请求、导致 KV cache eviction 和 prefill 重算;工具返回的长文本还会持续膨胀上下文,使后续 de...
agentic RL 里最危险的问题之一不是 reward 直接崩掉,而是模型在多轮轨迹中逐渐学会对不同输入套用同一类 reasoning template。传统上很多工作用 entropy 监控训练稳定性,但 entropy 只能衡量同一输入内的多样性,完全可能把“看起来有变化、实际上不看输入”的 colla...
大语言模型仍基本停留在“训练完成后静态部署”的范式,这使它们很难在推理时随着上下文流持续适应。测试时训练本来是解决这类问题的理想方向,但过去方法往往需要重构 Transformer 架构、逐 token 更新导致吞吐量差,或者使用与自回归语言建模并不对齐的重构目标。 这篇工作的核心是 In-Place TTT:...
LoRA 已经成为参数高效微调的默认路径,但真实生产里最大的瓶颈往往不是单个 adapter 怎么训,而是海量 LoRA 配置在共享 GPU 集群里的联合调参与调度。现有系统基本把每个 LoRA job 当成独立训练任务处理,这会导致弱配置长期占卡、共享 frozen backbone 的机会被浪费、而多租户集...
长链推理把 KV cache 推成了部署瓶颈,但现有压缩方法往往依赖 recent post-RoPE queries 去估计 key importance。问题在于 query 在 RoPE 之后会随位置旋转,代表性 query 变得很少,导致 top-key selection 不稳定,尤其在需要长 rea...
RLVR 只拿到环境可验证结果,信号稀疏;而 on-policy distillation 虽然能给 token-level 密集信号,却往往需要教师或特权信息,并容易产生信息泄漏。社区最近尝试 self-distillation,但长期稳定性和真正可迁移的更新信号仍然是问题。 这篇工作提出 Self-Dist...
基于可验证奖励的 LLM 强化学习已经成为推理后训练的主线之一,但它有一个非常实际的失败模式:当题目太难、一个 rollout group 全错时,相对优势就是零,训练完全没有更新信号。给模型加 hints 看起来是自然补救,但固定 hints 往往会让模型学会依赖提示,而不是把能力迁移回无提示场景。 HiLL...
高效注意力长期面临一个结构瓶颈:滑动窗口和大多数线性时间方案虽然把复杂度压下来了,但代价通常是全局路由能力显著下降,感受野扩展非常慢。很多工作只能在复杂稀疏模式、额外路由器或自定义 kernel 之间做折中。 这篇工作的核心是 Stochastic Attention。它在窗口注意力前先对 token 做随机重...
代码生成后训练通常依赖执行反馈、验证器、教师模型或 RL 流水线,导致成本高、实现复杂,而且很难把方法推广到不同模型规模与训练设定。真正有价值的问题是:模型能否只用自己的原始输出就系统性变强。 这篇工作给出的答案是可以。它提出极简自蒸馏 SSD:直接采样模型自己的未经验证输出,再用标准 SFT 回灌训练。论文进...
LLM 在真实部署里面对的往往不是静态测试集,而是不断变化、混合已知与未知任务的开放测试流。传统 test-time adaptation 多半依赖手工设计的无监督目标,并直接在全参数空间上更新,结果容易破坏源域知识,也缺少对非平稳适应信号可靠性的控制。 这篇工作提出 SyCo,把 open-set test...
test-time compute scaling 已经成为提升 reasoning LLM 的一条主线,但 MCTS 这类方法在真实系统里很容易被长尾延迟拖垮。问题不只是平均性能,而是不同 query 的 search depth 和 search usefulness 高度不均,最终让线上系统在 p99 l...
Agentic RAG 在多跳问答和复杂知识推理里已经很常见,但随着 reasoning trajectory 变长,失败点也越来越多。很多系统要么只会做失败诊断,要么干脆把整条 retrieval-reasoning pipeline 从头重跑,既贵又浪费已经验证过的正确前缀。Doctor-RAG 的价值就在...
In-Context Reinforcement Learning 试图让 LLM 直接在上下文中从外部 reward 学习,但一到真实推理阶段就会碰到一个根本问题:模型往往拿不到 ground truth,因此 reward estimation 本身变得不可靠。TR-ICRL 关注的正是这个关键短板。 论文...
test-time scaling 让 LLM 的推理和 agentic 能力显著提升,但标准 Transformer 在推理时做深度扩展并不高效:循环计算带来高额重复开销,而 KV cache 也会随着深度和长度一起膨胀。Universal YOCO 的出发点就是解决这种 inference-time dep...
低秩分解已经成为 LLM 压缩、部署和高效适配中的常见工具,但很多方法仍主要围绕输入侧激活白化或简单 SVD 展开,对分解误差与模型损失之间的关系建模并不充分。这使得不少低秩近似方法虽然实用,却仍然更像经验手艺而不是真正最优的分解方案。OBD-LLM 针对的就是这个问题。 论文利用二阶 Hessian 信息重新...
Mixture-of-Experts 已成为扩展模型容量和训练效率的核心路线,但现有主流设计几乎都默认依赖一个集中式 router,再配上 softmax、top-k 和显式 load balancing 规则。这套结构虽然有效,却也把很多设计选择提前硬编码进了系统,限制了专家激活与资源分配方式的可塑性。Rou...
test-time scaling 带来了更强推理能力,但也把推理成本迅速推高。很多情况下,真正的问题不是模型不会做,而是采样和 stopping 决策缺乏校准,导致系统在无需额外思考时仍然花大量算力。ORCA 正是从 reasoning calibration 这个角度切入,尝试在保证风险控制的前提下减少无效...
RAG 系统已经很常见,但预训练阶段到底该把多少知识学进参数、又该把多少预算留给外部检索存储,这个问题一直缺少干净的定量回答。多数实践只能靠经验拍脑袋分配预训练语料和 retrieval store 规模,而缺乏可外推的规律。 这篇论文系统研究了模型参数规模、预训练 token 数量和检索语料库规模之间的三维关...
长上下文 decoding 的核心瓶颈越来越不是 FLOPs,而是 KV cache 的 IO:每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰,但这些办法都会在 fidelity 或 accessibility 上做出让步,进而伤害 delayed recall 和长篇连...
真实 LLM serving 往往不是固定模型单点部署,而是跨成本区间巨大的多模型组合。问题在于,这个质量-成本 trade-off 不是静态的:模型价格会变、质量会漂移、新模型会热插拔上线,而很多现有 router 仍假定环境近似静止。 论文提出 ParetoBandit,把 open-ended servi...
长上下文推理里,KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理,工程链条重且对新模型的迁移成本高。 TurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域,再对连续元素对...
Knowledge Graph RAG 一直比文档式 RAG 更难做,尤其在 multi-hop graph reasoning 上,传统做法往往要在 classical KG retrieval 和 LLM generation 之间做很多特化 glue code,或者退化成昂贵且脆弱的图检索流水线。UltR...
Continual test-time adaptation 一直有一个现实矛盾:想提升在线适应效果,就往往要更新更多参数;但一旦更新太多,推理效率和稳定性都会快速变差。现有很多方法在效率与泛化之间做经验折中,但较少给出更干净的机制解释。 The Golden Subspace 的核心贡献,是提出并分析一个最小...
multi-model routing 的经典做法通常依赖 query 语义特征,但这类信号往往并不能真正捕捉模型各自的 failure modes,也很难判断某条 query 对某个目标模型究竟是容易还是困难。问题不是 router 有没有语义理解,而是缺少更贴近模型内部可解性与正确率的 routing si...
很多 test-time self-evolution 工作默认假设模型天然会根据反馈改写自身上下文,但实际上大多数方法只是把更强模型或更复杂搜索包在外层,并没有显式训练“如何根据反馈进化上下文”这项能力。 这篇工作的核心推进,是把 self-evolution 本身重写成可学习的 RL 目标:每次上下文编辑都...
这篇论文针对长上下文 LLM 的核心部署瓶颈:KV cache 随上下文长度线性增长,直接限制显存、吞吐和可生成长度。与 token eviction、低秩投影或 scalar quantization 相比,作者把问题转成 vector-level quantization,希望同时获得高压缩率和高重构保真度...
这份技术报告针对现代大模型里一个长期被默认接受但很少被单独重构的组件:残差连接。标准 PreNorm Transformer 会把所有前层输出用固定权重累加到当前层,随着深度增长,这会带来隐藏状态幅度膨胀、层贡献被稀释以及梯度分布不均的问题。Moonshot 团队把这个问题明确提出,并把它从训练稳定性的附属细节...
这篇论文处理的是深层 Transformer 一个很核心但长期被残差连接掩盖的问题:随着深度增加,浅层形成的有用信息会在反复残差更新中逐步被冲淡。标准做法默认每一层只通过当前层序列注意力和固定残差继续传播,而无法显式、动态地从更早的层里把有价值的表示重新读出来。作者试图把“跨层信息访问”从静态残差,升级成真正的...
这篇论文试图解释推理模型里一个常被表面化理解的现象:所谓的 Aha moment 或自我纠错,到底是不是由某些特殊 token 直接触发。作者给出的答案是否定的。他们把推理分解成两类信息活动:程序性信息,也就是按步骤执行;以及 epistemic verbalization,也就是把内部不确定性显式外化成文本...
这篇论文讨论长上下文模型里非常著名的“迷失在中间”现象。作者的核心主张是:这并不是训练出来的偶然坏习惯,也不主要是位置编码造成的,而是因果解码器在初始化阶段就已经带有的结构性位置偏差。 方法上,论文把多层因果注意力建模为 Cesàro 矩阵的迭代幂,推导出连续极限下的闭式影响密度。结论是,因果掩码天然造成首因偏...
Continual learning 在 transformer 里通常通过 prompts、adapters 或 LoRA 这类参数高效适配来做,但这些方法往往默认可以多轮重复训练,在严格 online setting 下就会遇到明显限制。真正困难的地方,是样本流非平稳、可能只看一次,而且模型无法依赖显式 t...
这篇论文关注的是长上下文建模里一个很核心但长期处理得不够清楚的问题:当线性注意力、fast-weight memory 和 state space model 用固定状态压缩历史时,内部到底应该在时间上学习什么配对关系。作者指出,很多现有写法沿用了 Transformer 风格的当前 key 与当前 value...
长上下文扩展通常靠缩放 positional encoding 再做 continual pretraining,但这套流程常常以短文本能力受损为代价。真正困难的不只是把 context 拉长,而是在不破坏原生 attention dynamics 的前提下,把模型从 native RoPE 平稳迁移到 lon...
这篇论文讨论的是长上下文推理里的一个核心难点:即使模型窗口变长,真正稳定地抽取、组织并使用远距离信息依然很难。此前 Recursive Language Models 这类方法试图通过递归式子调用和程序化上下文交互来处理长文档,但这条路线的成功到底来自递归结构本身,还是来自更一般的推理程序搜索,一直没有被讲清...
长程记忆一直是通用模型能力扩展的硬瓶颈。传统 full attention 路线在上下文长度升到百万级后,计算与 KV cache 成本都会迅速失控;而 RAG、外部 memory agent 或固定状态模型虽然能绕开部分长度限制,却往往带来精度下降、延迟膨胀、记忆不可编辑,或缺乏端到端优化的问题。MSA 正面...
Transformer 预训练里,许多难拟合的细节往往要靠更多训练步数和更大模型硬吃下来,而低秩方法大多只被当作 finetuning 的 PEFT 接口。NOBLE 讨论的是另一件事:能不能把低秩分支变成预训练阶段的永久架构部件,直接提高拟合效率。 它在每个 Transformer 线性层旁边加入一个永久性的...
这篇论文研究 Transformer 中两个经常一起出现、但此前缺少统一解释的现象:`massive activations` 和 `attention sinks`。前者指少数 token 在某些通道上出现极端异常激活,后者指某些 token 会在许多注意力头中持续吸走注意力质量。作者的重点不是再次报告现象...
评估推理模型能否有意识地操控自己的思维链以规避监控。论文构建 CoT-Control 基准,要求模型在解题同时遵守对推理过程的限制,例如禁用特定词或改变书写风格。核心发现是当前模型对 CoT 的可控性远低于对最终输出的可控性,并且随着 RL 训练、测试时计算和题目难度上升,可控性反而下降。这意味着基于 CoT...
这篇论文关注 test-time scaling 中一个核心问题:生成很多候选答案之后,模型应该如何更可靠地挑出最好的答案。作者认为传统的 pointwise 打分方式能力有限,因此提出把“生成”和“自验证”统一到一个 pairwise 框架中。 方法上,论文提出 `V1-Infer` 和 `V1-PairRL...
Doc-to-LoRA 把长上下文信息从 token-level context 转成 transient LoRA adapter,提供了一种参数记忆接口:文档不再每次都作为 KV/context 被反复读入,而是由 hypernetwork 在一次前向中编译成目标 LLM 的 LoRA 权重。 它瞄准的是...
这篇论文针对 PEFT/LoRA 研究里一个非常少被真正推到极限的问题:为了让大模型学会更强推理,到底需要多大规模的参数更新?传统 LoRA 已经把微调从全量权重降到低秩矩阵,但仍然至少要受制于模型维度;LoRA-XS 进一步压缩后,通常也还在成千上万参数量级。作者直接反问:如果目标是让模型更会推理,rank=...
这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题:模型通过 SFT 学到新知识,并不等于它具备了有效使用这些知识的能力。对本仓库来说,它切中的不是普通微调,而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。 作者提出...
这篇论文针对自回归语言模型的核心效率瓶颈:标准 LLM 每一步只生成一个离散 token,因此长文本生成、推理和服务吞吐都被 token-by-token 的串行链条限制。单纯加速 kernel 或投机解码仍然是在离散 token 序列上做补丁,无法改变每个生成步的语义带宽。 CALM 的核心新意是把自回归目标...
- 分级:`突破性` - 正式标题:`Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons` - 原文:`2025-10-16-R1_Breadcrumbs_Reasoning-Breadcrumbs_Reasoni...
- 分级:`突破性` - 正式标题:`It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization` - 原文:`2025-04-17-R3_M...
- 分级:`颠覆性` - 正式标题:`Titans: Learning to Memorize at Test Time` - 原文:`2024-12-31-R2_Titans-Titans_Learning_to_Memorize_at_Test_Time.pdf` - 抽取:`extracted.md` #...
RAG 系统的一个核心脆弱点是 retrieval corruption:攻击者只要向检索结果里注入恶意文段,就可能把最终回答拉偏。大多数现有防御依赖启发式过滤、重排序或 prompt-level 规避,缺少能够对攻击上界给出形式保证的机制,因此很难说系统在面对自适应攻击时究竟有多稳。 RobustRAG 提出...