论文详解38精选论文

经典论文打底,
前沿周更跟进。

精心撰写的核心 AI 论文摘要——核心思想、公式推导、面试考点。不是 arXiv 堆砌。

MLLM2026

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Xin Zhou, Dingkang Liang, Xiwu Chen et al.

HERMES++ 首次将 3D 场景理解与未来几何预测统一到单一 LLM-based 框架中,通过 BEV 表示、LLM 增强查询、时序链接和联合几何优化等协同设计,在点云预测和场景理解任务上均超越专业方法。

World ModelAutonomous Driving3D Scene UnderstandingPoint Cloud Prediction
MLLM2026

Image Generators are Generalist Vision Learners

Valentin Gabeur, Shangbang Long, Songyou Peng et al.

这篇论文提出图像生成模型通过生成式预训练可以习得强大的通用视觉表征,通过轻量级指令微调将视觉任务统一转换为图像生成问题,Vision Banana 在分割、深度估计等任务上达到或超越 SAM3、Depth Anything 等专门模型,揭示了生成式预训练可能成为构建视觉基础模型的新范式。

generative-visionfoundation-modelsvision-languageimage-generation
LLM2026

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang et al.

用softmax attention替代传统残差连接中的固定单位权重累加,实现输入依赖的深度选择性聚合,显著缓解PreNorm稀释问题并提升LLM性能。

attentionresidual connectionlayer normalizationarchitecture design
LLM2021· CLASSIC

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

Hsu et al. (FAIR)

把 BERT 的 masked prediction 真正搬到语音——用 k-means 聚类做「伪 phoneme」标签,迭代式 SSL 训练,比 wav2vec 2.0 更稳。

sslaudiospeechmasked-prediction
LLM2018· CLASSIC

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation

Luo & Mesgarani

第一个在 waveform 域端到端做 speech separation 的方法——直接 beat 之前的 STFT 路线,证明「信号处理预设」未必必要。

speech-separationaudioend-to-endwaveform
LLM2022· CLASSIC

AudioLM: A Language Modeling Approach to Audio Generation

Borsos et al. (Google)

把音频当「语言」训:用 SoundStream codec 把波形离散化成 token,再用 Transformer 像 GPT 一样 next-token-predict——开启 codec+LM 范式。

audio-generationcodeclanguage-modelspeech-synthesis
LLM2023· CLASSIC

MusicLM: Generating Music From Text

Agostinelli et al. (Google)

AudioLM 加文本条件 = text-to-music。MuLan (text-audio CLIP) 做对齐 + AudioLM 做生成,能写出 5 分钟连贯音乐。

audio-generationmusictext-to-audiocodec
MLLM2023· CLASSIC

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Chu et al. (Alibaba)

把 Whisper encoder 接 Qwen LLM——一个模型搞定 ASR / 翻译 / 音频字幕 / SED / 情感识别 30+ 任务的「audio GPT-4o」开源版。

audio-llmmultitaskspeechinstruction-tuning
LLM2021· CLASSIC

DINO: Emerging Properties in Self-Supervised Vision Transformers

Caron et al. (Meta FAIR / Inria)

Self-distillation with no labels:学生预测教师 (EMA) 的 softmax,纯靠 multi-crop + centering + sharpening 学到能直接做分割的视觉特征。

sslvisionvitself-distillation
LLM2024· CLASSIC

DINOv2: Learning Robust Visual Features without Supervision

Oquab et al. (Meta FAIR)

把 DINO 的 self-distillation + 142M 精挑数据 + iBOT 风格 patch-level loss 推到 ViT-g (1.1B),产出可直接用于多种下游任务的「通用视觉特征」。

sslvisionvitfoundation-model
LLM2020· CLASSIC

SimCLR: A Simple Framework for Contrastive Learning of Visual Representations

Chen et al. (Google)

用最简单的两段式增广 + InfoNCE 把 contrastive SSL 推上 ImageNet linear probe 76.5% —— 证明数据增广 + 大 batch 就够。

sslcontrastivevisionfoundational
LLM2019· CLASSIC

MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

He et al. (FAIR)

用 momentum encoder + queue 把 negatives 从 batch 里解放出来,小 batch 也能做 contrastive。

sslcontrastivevision
LLM2021· CLASSIC

MAE: Masked Autoencoders Are Scalable Vision Learners

He et al. (FAIR)

BERT-for-vision:mask 掉 75% patch、不对称 encoder/decoder、像素级重建——把 ViT 的 SSL 推到生产可用。

sslvisionvitmasked-modeling
LLM2013· CLASSIC

Auto-Encoding Variational Bayes (VAE)

Kingma & Welling

用变分推断 + reparameterization trick 让生成模型可以 backprop——latent space 生成模型的基石。

generativevaefoundationallatent
LLM2020· CLASSIC

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

Baevski et al. (FAIR)

把 BERT 的 masked prediction 搬到原始音频,10 分钟标注就能训出 ASR——语音 SSL 范式确立。

sslaudiospeechcontrastive
LLM2020· CLASSIC

DDPM: Denoising Diffusion Probabilistic Models

Ho, Jain, Abbeel (Berkeley)

把扩散过程化简为预测噪声 ε,让 diffusion 训练像普通监督学习——开启 diffusion 时代。

diffusiongenerativefoundational
LLM2021· CLASSIC

High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion)

Rombach et al. (Heidelberg/Runway)

在 VAE 压缩后的 latent space 上做 diffusion——把 512×512 生成做到消费级 GPU,开启开源 AIGC 浪潮。

diffusiongenerativestable-diffusionvision
LLM2022· CLASSIC

Classifier-Free Diffusion Guidance

Ho & Salimans (Google)

训练时随机丢掉 condition,推理时把 conditional 和 unconditional 噪声预测做外推——免分类器的强 conditioning。

diffusiongenerativeconditioning
LLM2022· CLASSIC

DiT: Scalable Diffusion Models with Transformers

Peebles & Xie (NYU/UC Berkeley)

把 U-Net 换成 Transformer——证明 diffusion 也遵循 scaling law;Sora / SD3 / FLUX 都跟进。

diffusiontransformergenerative
LLM2023· CLASSIC

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and LLMs

Li et al. (Salesforce)

用一个轻量 Q-Former 把 frozen vision encoder 和 frozen LLM 桥起来——参数效率 + 模块复用的范式开端。

vlmmultimodalfoundational
LLM2022· CLASSIC

Flamingo: a Visual Language Model for Few-Shot Learning

Alayrac et al. (DeepMind)

在 frozen LLM 里插入 cross-attention 层让它看见图像和视频——首个真正的 GPT-3 for vision,开启 in-context VQA。

vlmmultimodalfew-shotfoundational
LLM2022· CLASSIC

Whisper: Robust Speech Recognition via Large-Scale Weak Supervision

Radford et al. (OpenAI)

用 68 万小时弱监督音频 + 标准 encoder-decoder Transformer 把多语种 ASR 鲁棒性拉满——音频版 GPT 时刻。

audiospeechasrmultimodal
LLM2023· CLASSIC

ImageBind: One Embedding Space To Bind Them All

Girdhar et al. (Meta)

只用 image-X 配对数据就能把 6 种模态对齐到同一 embedding space——跨模态检索无需 N×N 配对。

multimodalembeddingalignment
LLM2017· CLASSIC

Attention Is All You Need

Vaswani et al.

用 Self-Attention 完全取代 RNN 和 CNN——Transformer 架构的开山之作,几乎所有现代 LLM 的地基。

transformerattentionarchitecturefoundational
LLM2018· CLASSIC

BERT: Pre-training of Deep Bidirectional Transformers

Devlin et al.

Masked Language Modeling + 双向 Transformer Encoder——预训练+微调范式的奠基之作。

pretrainencoderfoundationalnlp
LLM2020· CLASSIC

Language Models are Few-Shot Learners (GPT-3)

Brown et al.

175B 参数的 Decoder-only LM,首次展示 "只通过 Prompt 就能解决新任务" 的 In-Context Learning 能力。

gptpretrainscalingin-context-learning
LLM2022· CLASSIC

Training language models to follow instructions (InstructGPT)

Ouyang et al.

RLHF 的奠基工作——SFT + Reward Model + PPO 的三阶段对齐框架,直接催生了 ChatGPT。

rlhfalignmentsftppo
LLM2021· CLASSIC

LoRA: Low-Rank Adaptation of Large Language Models

Hu et al.

用两个低秩矩阵(A·B)替代全参数微调——训练参数量降到 0.1%-1%,推理零额外开销。

peftfinetuneefficiencyfoundational
LLM2021· CLASSIC

RoFormer: Rotary Position Embedding

Su et al.

用二维旋转矩阵编码位置——相对位置天然反映在 query 和 key 的点积里,支持长度外推。

position-encodingattentionarchitecture
LLM2022· CLASSIC

FlashAttention: Fast and Memory-Efficient Exact Attention

Dao et al.

用 tiling + recomputation 把 O(n²) 注意力从 HBM IO-bound 变成 SRAM compute-bound——**精确** attention,不近似。

attentioninferenceefficiencysystems
LLM2022· CLASSIC

Chain-of-Thought Prompting Elicits Reasoning

Wei et al.

给 LLM few-shot 示例时加入推理过程("Let's think step by step"),数学/常识推理性能飙升。

promptingreasoningin-context-learning
LLM2023· CLASSIC

Direct Preference Optimization

Rafailov et al.

数学证明 RLHF 的 RM+PPO 两阶段可以合成一个 SFT-style 损失——跳过 RM,直接从偏好数据优化策略。

alignmentrlhfpreference-learning
RAG2020· CLASSIC

Retrieval-Augmented Generation for Knowledge-Intensive NLP

Lewis et al.

把参数化知识(LM 权重内)和非参数化知识(外部向量库)结合——RAG 赛道的起点。

ragretrievalfoundational
MLLM2021· CLASSIC

CLIP: Learning Transferable Visual Representations

Radford et al.

4 亿图文对 + 对比学习——零样本图像分类能和监督训练的 ResNet 匹敌。

multimodalcontrastivevision-languagefoundational
MLLM2023· CLASSIC

LLaVA: Visual Instruction Tuning

Liu et al.

CLIP-ViT + LLaMA + 一个 linear projection——简单但有效的开源 VLM 基线。

vlmmultimodalinstruction-tuning
LLM2023· CLASSIC

Efficient Memory Management for LLM Serving with PagedAttention (vLLM)

Kwon et al.

借鉴操作系统虚拟内存——把 KV Cache 分成固定大小的块,大幅减少内存碎片,吞吐提升 2-4×。

inferencesystemsservingkv-cache
LLM2025· CLASSIC

DeepSeek R1: Incentivizing Reasoning via Reinforcement Learning

DeepSeek-AI

纯 RL(无 SFT warmup)激发涌现的推理能力——Chain-of-Thought 自然从奖励信号中生长。

reasoningrlhfgrpofrontier
LLM2023· CLASSIC

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Gu, Dao

选择性状态空间模型——O(N) 复杂度,媲美 Transformer 的语言建模能力。可能是 post-Transformer 时代的候选之一。

architecturessmlong-contextefficiency