Attention Residuals
Kimi Team, Guangyu Chen, Yu Zhang et al.
用softmax attention替代传统残差连接中的固定单位权重累加,实现输入依赖的深度选择性聚合,显著缓解PreNorm稀释问题并提升LLM性能。
arXiv:2603.15031核心贡献
- 01提出Attention Residuals,用softmax attention机制替代固定单位权重累加,实现层输出的内容依赖选择性聚合
- 02设计Block AttnRes分块策略,在块级表示上做attention以降低大规模训练的内存和通信开销
- 03结合cache-based pipeline通信和两阶段计算策略,实现实际部署的低开销替换
- 04Scaling law实验验证改进跨模型尺寸一致有效
- 05Kimi Linear架构(48B/3B)1.4T tokens预训练验证,AttnRes使输出幅度和梯度分布更均匀
- 06在所有评估任务上验证下游性能提升。
问题动机
现代LLM普遍采用PreNorm(Pre-LayerNorm)结构的残差连接,但存在一个根本性缺陷:所有层的输出以固定单位权重(权重=1)累加到残差路径。这种均匀聚合导致两个问题:
- 隐藏状态无控增长:深层网络的层输出幅度逐层累积,导致数值不稳定
- 层贡献稀释:每层的独立贡献被后续层的累加所稀释,信息传递效率降低
标准公式为:
方法核心:Attention Residuals
AttnRes的核心思想是用**softmax attention**替代固定累加,让每层自适应地选择性地聚合之前的层输出:
其中权重 由当前层查询与之前层键的交互决定。
更精确的AttnRes形式:
其中 是可学习的标量,控制残差与注意力的平衡。
关键特性:
- 输入依赖:权重 随输入内容变化
- 深度选择:每层可独立决定保留多少原始信号、聚合多少深层信息
- 可学习门控: 提供额外的层级别控制
Block AttnRes工程优化
直接对所有前面层做attention会导致 的内存和通信开销。Block AttnRes通过层级分块解决:
- 将 层划分为 个块,每块 层
- 每块维护一个块级表示 ,该块最后一层的输出
- Attention在块级表示上进行:
- 块内仍使用标准残差连接
复杂度从 降至 ,实际应用中 时显著降低。
实现优化:
- Cache-based pipeline通信:跨节点通信块级表示而非所有层
- 两阶段计算:先计算块内,再聚合块间
验证结果
- Scaling law:跨0.1B到几十B参数规模一致有效
- Ablation:验证输入依赖的深度选择确实带来收益
- Kimi Linear (48B/3B):1.4T tokens预训练,输出幅度和梯度分布更均匀,下游任务全面提升
常见面试问题
Q1: 为什么传统PreNorm的固定权重累加会导致问题?
每层输出以相同权重累加,深层时隐藏状态幅度逐层增长,可能导致数值不稳定。同时,早期层的表示被后续层的累加稀释,信息传递效率降低。
Q2: AttnRes和传统残差连接的核心区别是什么?
传统残差:固定权重 ,权重与输入无关 AttnRes:用attention动态决定聚合权重 ,权重是输入依赖的、content-aware的
Q3: Block AttnRes如何平衡效果和开销?
通过块级聚合,attention复杂度从 降到 ,通信量大幅减少。块内保持标准残差以维持局部信息流。实验证明块级聚合保留大部分收益。
Q4: AttnRes对梯度和训练稳定性有什么影响?
权重归一化和softmax的内在特性使梯度流更顺畅。输出幅度和梯度分布沿深度更均匀,缓解了深层训练困难。
Q5: 为什么说AttnRes是一种“drop-in replacement”?
架构上仍然保持PreNorm框架,只是将残差路径的固定加法替换为动态attention聚合。不需要大幅修改训练框架,部署成本低。
Q6: 这种方法和其他深度网络技术(如残差网络变体)有何本质区别?
核心区别在于输入依赖性和选择性。不像门控机制(如 highway networks)使用静态门控,AttnRes的权重由当前层表示与历史表示的交互动态决定,实现content-aware的选择性聚合。