LLM2026· arXiv本周新增

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang et al.

用softmax attention替代传统残差连接中的固定单位权重累加，实现输入依赖的深度选择性聚合，显著缓解PreNorm稀释问题并提升LLM性能。

arXiv:2603.15031

#attention#residual connection#layer normalization#architecture design#pre-training#scaling law#efficiency optimization

核心贡献

01提出Attention Residuals，用softmax attention机制替代固定单位权重累加，实现层输出的内容依赖选择性聚合
02设计Block AttnRes分块策略，在块级表示上做attention以降低大规模训练的内存和通信开销
03结合cache-based pipeline通信和两阶段计算策略，实现实际部署的低开销替换
04Scaling law实验验证改进跨模型尺寸一致有效
05Kimi Linear架构（48B/3B）1.4T tokens预训练验证，AttnRes使输出幅度和梯度分布更均匀
06在所有评估任务上验证下游性能提升。

问题动机

现代LLM普遍采用PreNorm（Pre-LayerNorm）结构的残差连接，但存在一个根本性缺陷：所有层的输出以固定单位权重（权重=1）累加到残差路径。这种均匀聚合导致两个问题：

隐藏状态无控增长：深层网络的层输出幅度逐层累积，导致数值不稳定
层贡献稀释：每层的独立贡献被后续层的累加所稀释，信息传递效率降低

标准公式为： $\mathbf{y} = \mathbf{x} + f_L(\mathbf{x})$ $\mathbf{x}_{l+1} = \text{PreNorm}(\mathbf{y})$

方法核心：Attention Residuals

AttnRes的核心思想是用**softmax attention**替代固定累加，让每层自适应地选择性地聚合之前的层输出：

$\mathbf{y}_l = \alpha_l \cdot \mathbf{x}_l + (1-\alpha_l) \cdot f_l(\mathbf{x}_l)$ 其中权重 $\alpha_l = \text{softmax}(\mathbf{q}_l \mathbf{K}_{<l})$ 由当前层查询与之前层键的交互决定。

更精确的AttnRes形式： $\mathbf{z}_l = \text{Attention}(\mathbf{Q}=\mathbf{x}_l, \mathbf{K}=\mathbf{h}_{<l}, \mathbf{V}=\mathbf{h}_{<l})$ $\mathbf{h}_l = \lambda_l \cdot \mathbf{x}_l + (1-\lambda_l) \cdot \mathbf{z}_l$

其中 $\lambda_l$ 是可学习的标量，控制残差与注意力的平衡。

关键特性：

输入依赖：权重 $\alpha_l$ 随输入内容变化
深度选择：每层可独立决定保留多少原始信号、聚合多少深层信息
可学习门控： $\lambda_l$ 提供额外的层级别控制

Block AttnRes工程优化

直接对所有前面层做attention会导致 $O(L^2)$ 的内存和通信开销。Block AttnRes通过层级分块解决：

将 $L$ 层划分为 $G$ 个块，每块 $B = L/G$ 层
每块维护一个块级表示 $\mathbf{b}_g$ ，该块最后一层的输出
Attention在块级表示上进行： $\mathbf{z}_l = \text{Attention}(\mathbf{x}_l, \{\mathbf{b}_0, ..., \mathbf{b}_{g-1}\})$
块内仍使用标准残差连接

复杂度从 $O(L^2)$ 降至 $O(B \cdot G + B^2)$ ，实际应用中 $B \ll L$ 时显著降低。

实现优化：

Cache-based pipeline通信：跨节点通信块级表示而非所有层
两阶段计算：先计算块内，再聚合块间

验证结果

Scaling law：跨0.1B到几十B参数规模一致有效
Ablation：验证输入依赖的深度选择确实带来收益
Kimi Linear (48B/3B)：1.4T tokens预训练，输出幅度和梯度分布更均匀，下游任务全面提升

面试视角

常见面试问题

Q1: 为什么传统PreNorm的固定权重累加会导致问题？

每层输出以相同权重累加，深层时隐藏状态幅度逐层增长，可能导致数值不稳定。同时，早期层的表示被后续层的累加稀释，信息传递效率降低。

Q2: AttnRes和传统残差连接的核心区别是什么？

传统残差：固定权重 $y = x + f(x)$ ，权重与输入无关 AttnRes：用attention动态决定聚合权重 $z = \text{Attention}(x, h_{<l})$ ，权重是输入依赖的、content-aware的

Q3: Block AttnRes如何平衡效果和开销？

通过块级聚合，attention复杂度从 $O(L^2)$ 降到 $O(B \cdot G)$ ，通信量大幅减少。块内保持标准残差以维持局部信息流。实验证明块级聚合保留大部分收益。

Q4: AttnRes对梯度和训练稳定性有什么影响？

权重归一化和softmax的内在特性使梯度流更顺畅。输出幅度和梯度分布沿深度更均匀，缓解了深层训练困难。

Q5: 为什么说AttnRes是一种“drop-in replacement”？

架构上仍然保持PreNorm框架，只是将残差路径的固定加法替换为动态attention聚合。不需要大幅修改训练框架，部署成本低。

Q6: 这种方法和其他深度网络技术（如残差网络变体）有何本质区别？

核心区别在于输入依赖性和选择性。不像门控机制（如 highway networks）使用静态门控，AttnRes的权重由当前层表示与历史表示的交互动态决定，实现content-aware的选择性聚合。