LLM2026· arXiv本周新增

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang et al.

用softmax attention替代传统残差连接中的固定单位权重累加,实现输入依赖的深度选择性聚合,显著缓解PreNorm稀释问题并提升LLM性能。

arXiv:2603.15031
#attention#residual connection#layer normalization#architecture design#pre-training#scaling law#efficiency optimization

核心贡献

  • 01提出Attention Residuals,用softmax attention机制替代固定单位权重累加,实现层输出的内容依赖选择性聚合
  • 02设计Block AttnRes分块策略,在块级表示上做attention以降低大规模训练的内存和通信开销
  • 03结合cache-based pipeline通信和两阶段计算策略,实现实际部署的低开销替换
  • 04Scaling law实验验证改进跨模型尺寸一致有效
  • 05Kimi Linear架构(48B/3B)1.4T tokens预训练验证,AttnRes使输出幅度和梯度分布更均匀
  • 06在所有评估任务上验证下游性能提升。

问题动机

现代LLM普遍采用PreNorm(Pre-LayerNorm)结构的残差连接,但存在一个根本性缺陷:所有层的输出以固定单位权重(权重=1)累加到残差路径。这种均匀聚合导致两个问题:

  1. 隐藏状态无控增长:深层网络的层输出幅度逐层累积,导致数值不稳定
  2. 层贡献稀释:每层的独立贡献被后续层的累加所稀释,信息传递效率降低

标准公式为: y=x+fL(x)\mathbf{y} = \mathbf{x} + f_L(\mathbf{x}) xl+1=PreNorm(y)\mathbf{x}_{l+1} = \text{PreNorm}(\mathbf{y})

方法核心:Attention Residuals

AttnRes的核心思想是用**softmax attention**替代固定累加,让每层自适应地选择性地聚合之前的层输出:

yl=αlxl+(1αl)fl(xl)\mathbf{y}_l = \alpha_l \cdot \mathbf{x}_l + (1-\alpha_l) \cdot f_l(\mathbf{x}_l) 其中权重 αl=softmax(qlK<l)\alpha_l = \text{softmax}(\mathbf{q}_l \mathbf{K}_{<l}) 由当前层查询与之前层键的交互决定。

更精确的AttnRes形式: zl=Attention(Q=xl,K=h<l,V=h<l)\mathbf{z}_l = \text{Attention}(\mathbf{Q}=\mathbf{x}_l, \mathbf{K}=\mathbf{h}_{<l}, \mathbf{V}=\mathbf{h}_{<l}) hl=λlxl+(1λl)zl\mathbf{h}_l = \lambda_l \cdot \mathbf{x}_l + (1-\lambda_l) \cdot \mathbf{z}_l

其中 λl\lambda_l 是可学习的标量,控制残差与注意力的平衡。

关键特性

  • 输入依赖:权重 αl\alpha_l 随输入内容变化
  • 深度选择:每层可独立决定保留多少原始信号、聚合多少深层信息
  • 可学习门控λl\lambda_l 提供额外的层级别控制

Block AttnRes工程优化

直接对所有前面层做attention会导致 O(L2)O(L^2) 的内存和通信开销。Block AttnRes通过层级分块解决:

  1. LL 层划分为 GG 个块,每块 B=L/GB = L/G
  2. 每块维护一个块级表示 bg\mathbf{b}_g,该块最后一层的输出
  3. Attention在块级表示上进行:zl=Attention(xl,{b0,...,bg1})\mathbf{z}_l = \text{Attention}(\mathbf{x}_l, \{\mathbf{b}_0, ..., \mathbf{b}_{g-1}\})
  4. 块内仍使用标准残差连接

复杂度从 O(L2)O(L^2) 降至 O(BG+B2)O(B \cdot G + B^2),实际应用中 BLB \ll L 时显著降低。

实现优化

  • Cache-based pipeline通信:跨节点通信块级表示而非所有层
  • 两阶段计算:先计算块内,再聚合块间

验证结果

  • Scaling law:跨0.1B到几十B参数规模一致有效
  • Ablation:验证输入依赖的深度选择确实带来收益
  • Kimi Linear (48B/3B):1.4T tokens预训练,输出幅度和梯度分布更均匀,下游任务全面提升
面试视角

常见面试问题

Q1: 为什么传统PreNorm的固定权重累加会导致问题?

每层输出以相同权重累加,深层时隐藏状态幅度逐层增长,可能导致数值不稳定。同时,早期层的表示被后续层的累加稀释,信息传递效率降低。

Q2: AttnRes和传统残差连接的核心区别是什么?

传统残差:固定权重 y=x+f(x)y = x + f(x),权重与输入无关 AttnRes:用attention动态决定聚合权重 z=Attention(x,h<l)z = \text{Attention}(x, h_{<l}),权重是输入依赖的、content-aware的

Q3: Block AttnRes如何平衡效果和开销?

通过块级聚合,attention复杂度从 O(L2)O(L^2) 降到 O(BG)O(B \cdot G),通信量大幅减少。块内保持标准残差以维持局部信息流。实验证明块级聚合保留大部分收益。

Q4: AttnRes对梯度和训练稳定性有什么影响?

权重归一化和softmax的内在特性使梯度流更顺畅。输出幅度和梯度分布沿深度更均匀,缓解了深层训练困难。

Q5: 为什么说AttnRes是一种“drop-in replacement”?

架构上仍然保持PreNorm框架,只是将残差路径的固定加法替换为动态attention聚合。不需要大幅修改训练框架,部署成本低。

Q6: 这种方法和其他深度网络技术(如残差网络变体)有何本质区别?

核心区别在于输入依赖性选择性。不像门控机制(如 highway networks)使用静态门控,AttnRes的权重由当前层表示与历史表示的交互动态决定,实现content-aware的选择性聚合。

相关论文