§1.2.13

监督/无监督/自监督/强化/半监督的区别与代表任务？

核心概念

机器学习根据数据标签和与环境交互方式的不同，主要分为五种范式：

监督学习 (Supervised Learning)：使用完全标注的数据集 $(X, Y)$ 进行训练，目标是学习一个从输入 $X$ 到输出 $Y$ 的映射函数 $f$ 。模型通过最小化预测值 $f(X)$ 与真实标签 $Y$ 之间的差异（损失函数）来进行学习。
无监督学习 (Unsupervised Learning)：使用完全未标注的数据集 $X$ 进行训练，目标是发现数据中隐藏的结构、模式或分布。它不依赖外部提供的标签，而是探索数据自身的内在特性。
自监督学习 (Self-supervised Learning, SSL)：是无监督学习的一种特殊形式，但其方法论更接近监督学习。它通过从数据自身自动生成标签来构建“伪”监督任务（称为“pretext task”，代理任务），从而学习到有意义的特征表示。这些表示随后可用于解决下游任务。
强化学习 (Reinforcement Learning, RL)：模型（Agent）通过与环境 (Environment) 交互来学习。Agent 在每个状态 (State) 采取一个动作 (Action)，环境会给予一个奖励 (Reward) 并转移到下一个状态。Agent 的目标是学习一个策略 (Policy)，以最大化长期累积奖励。
半监督学习 (Semi-supervised Learning)：介于监督学习和无监督学习之间，使用少量标注数据和大量未标注数据进行训练。其核心思想是利用未标注数据中蕴含的分布信息来辅助和提升在少量标注数据上学习到的模型性能。

原理与推导

1. 监督学习 (Supervised Learning)

数学表示：给定数据集 $D = \{(x_i, y_i)\}_{i=1}^N$ ，其中 $x_i$ 是输入特征， $y_i$ 是真实标签。目标是学习一个模型 $f_\theta$ ，其参数为 $\theta$ ，使得经验风险（Empirical Risk）最小化。通常会加上一个正则项 $\Omega(\theta)$ 来防止过拟合。
$\min_\theta \mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^N L(f_\theta(x_i), y_i) + \lambda \Omega(\theta)$
- $L$ 是损失函数，例如分类任务中的交叉熵损失或回归任务中的均方误差损失。
- $\lambda$ 是正则化系数。
直观解释：可以想象成一个学生（模型）跟着一位老师（标签）学习。学生对每个问题（输入 $x_i$ ）给出自己的答案（预测 $f_\theta(x_i)$ ），老师则给出标准答案（真实标签 $y_i$ ）。学生通过比较自己答案和标准答案的差距（损失 $L$ ）来不断修正自己的知识体系（参数 $\theta$ ），目标是让自己的答案越来越接近标准答案。
代表任务：
- 分类 (Classification)：预测离散的类别标签。例如，图像分类（ImageNet）、垃圾邮件检测。
- 回归 (Regression)：预测连续的数值。例如，房价预测、股票价格预测。

2. 无监督学习 (Unsupervised Learning)

数学表示：给定数据集 $D = \{x_i\}_{i=1}^N$ 。目标是学习数据的内在结构。
- 聚类 (Clustering, e.g., K-Means)：将数据划分为 $K$ 个簇，使得簇内样本相似度高，簇间相似度低。其目标函数是最小化所有点到其所属簇中心的距离平方和。 $\min_{C, \mu} \sum_{k=1}^K \sum_{x_i \in C_k} \|x_i - \mu_k\|^2$ 其中 $C_k$ 是第 $k$ 个簇的集合， $\mu_k$ 是其中心。
- 降维 (Dimensionality Reduction, e.g., PCA)：寻找一个低维子空间，将高维数据投影到该子空间，同时最大化保留原始数据的方差。
直观解释：没有老师指导，学生需要自己在一大堆未分类的材料中寻找规律。比如，将外观相似的物品归为一类（聚类），或者将一篇文章的核心思想提炼成几个关键词（降维/主题建模）。
代表任务：
- 聚类：用户分群、社交网络分析。
- 降维：数据可视化、特征提取。
- 密度估计：异常检测。

3. 自监督学习 (Self-supervised Learning)

原理：自监督学习是“无中生有”地创造标签。它分为两个阶段：
1. 代理任务 (Pretext Task) 预训练：在大量无标签数据上，设计一个代理任务来训练模型。代理任务的标签是从数据本身生成的。
2. 下游任务 (Downstream Task) 微调：使用在代理任务上预训练好的模型参数作为初始值，然后在少量有标签的下游任务数据上进行微调。
数学表示 (以对比学习为例)：对比学习是 SSL 的一种主流方法。其核心思想是“将相似的样本在表示空间中拉近，不相似的样本推远”。对于一个样本 $x_i$ ，我们通过数据增强生成两个“正样本” $x_i^a, x_i^b$ 。批次内的其他样本 $x_j (j \neq i)$ 则被视为“负样本”。模型学习一个编码器 $f_\theta$ ，将样本映射到表示向量 $z = f_\theta(x)$ 。损失函数（如 InfoNCE Loss）的目标是让正样本对的相似度远高于负样本对的相似度：
$\mathcal{L}_i = -\log \frac{\exp(\text{sim}(z_i^a, z_i^b) / \tau)}{\sum_{j=1, j\neq i}^{B} \exp(\text{sim}(z_i^a, z_j^b) / \tau) + \exp(\text{sim}(z_i^a, z_i^b) / \tau)}$
- $\text{sim}(u, v) = u^T v / (\|u\| \|v\|)$ 是余弦相似度。
- $\tau$ 是温度超参数，用于调节相似度分布的锐利程度。
直观解释：好比让学生做“完形填空”（如 BERT 的 Masked Language Model）。文章本身就是学习材料，我们随机挖掉一些词，让学生去预测被挖掉的词是什么。学生为了做好这个任务，必须深入理解单词、语法和上下文语境，从而学到了通用的语言能力。这种能力之后可以轻松迁移到做阅读理解、翻译等具体任务上。
代表任务：
- 自然语言处理 (NLP)：BERT (Masked Language Model), GPT (Next Token Prediction)。
- 计算机视觉 (CV)：SimCLR, MoCo (Contrastive Learning), MAE (Masked Autoencoders)。

4. 强化学习 (Reinforcement Learning)

数学表示 (马尔可夫决策过程 - MDP)： RL 问题通常被建模为 MDP，由一个元组 $(\mathcal{S}, \mathcal{A}, P, R, \gamma)$ 定义：
- $\mathcal{S}$ : 状态空间
- $\mathcal{A}$ : 动作空间
- $P(s'|s, a)$ : 在状态 $s$ 采取动作 $a$ 后转移到状态 $s'$ 的概率。
- $R(s, a)$ : 在状态 $s$ 采取动作 $a$ 后获得的即时奖励。
- $\gamma \in [0, 1]$ : 折扣因子，权衡当前奖励和未来奖励的重要性。
目标是找到一个最优策略 $\pi^*(a|s)$ ，以最大化从任意状态 $s$ 出发的期望累积折扣奖励（价值函数）：
$V^*(s) = \max_\pi \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s \right]$
Q-Learning 等算法通过迭代更新贝尔曼最优方程来求解最优动作价值函数 $Q^*(s, a)$ ：
$Q^*(s, a) = \mathbb{E}_{s' \sim P(\cdot|s,a)} \left[ R(s, a) + \gamma \max_{a'} Q^*(s', a') \right]$
直观解释：训练一个宠物（Agent）。你不需要告诉它每一步具体该怎么做（没有监督标签），你只需要在它做出好的行为（如接住飞盘）时给它奖励（正 Reward），在它做出坏的行为（如咬坏沙发）时给予惩罚（负 Reward）。通过不断地试错（探索）和利用已有的成功经验（利用），宠物会逐渐学会一套能最大化获得奖励的行为模式（策略）。
代表任务：
- 游戏：AlphaGo（围棋）、Dota 2、星际争霸。
- 机器人控制：机械臂抓取、无人机导航。
- 推荐系统/广告：动态调整推荐策略以最大化用户点击率或长期留存。

5. 半监督学习 (Semi-supervised Learning)

数学表示：给定标注数据集 $D_l = \{(x_i, y_i)\}_{i=1}^{N_l}$ 和未标注数据集 $D_u = \{x_j\}_{j=1}^{N_u}$ ，其中 $N_l \ll N_u$ 。总的损失函数通常是监督损失和无监督损失的加权和：
$\mathcal{L} = \mathcal{L}_{\text{supervised}} + \lambda \mathcal{L}_{\text{unsupervised}}$
- $\mathcal{L}_{\text{supervised}} = \frac{1}{N_l} \sum_{(x,y) \in D_l} L(f_\theta(x), y)$
- $\mathcal{L}_{\text{unsupervised}}$ 依赖于具体方法。例如，在一致性正则化 (Consistency Regularization) 中，它惩罚模型对同一未标注样本的不同增强版本给出不一致的预测： $\mathcal{L}_{\text{unsupervised}} = \frac{1}{N_u} \sum_{x \in D_u} \| f_\theta(\text{aug}_1(x)) - f_\theta(\text{aug}_2(x)) \|^2$
直观解释：一位老师（少量标注数据）教了一部分基础知识，然后给学生一大堆没有答案的练习题（大量未标注数据）。半监督学习的核心假设是：相似的输入应该有相似的输出（平滑性假设），或者数据的分布存在一些结构（如聚类假设）。学生在做练习题时，虽然不知道正确答案，但可以根据“同一道题的两种不同问法，答案应该差不多”这样的原则来巩固和泛化知识，从而在最终考试中表现得更好。
代表任务：
- 医学影像分析：医生标注少量病灶图像，利用大量未标注的影像数据提升分割或诊断模型的精度。
- 文本分类：用少量已分类的新闻和海量的未分类新闻语料，共同训练一个更鲁棒的分类器。

工程实践

超参数选择经验：

SSL (对比学习)：温度τ 至关重要。较小的值（如0.07）会拉大负样本间的距离，使学习任务更难，但可能学到更精细的特征。批次大小 (Batch Size) 也很重要，更大的批次提供了更多的负样本，通常能提升性能。
RL：折扣因子γ 决定了智能体的“远见”。接近1时，智能体更看重长期回报；接近0时，更看重短期回报。学习率 和 探索率ε (在ε-greedy策略中) 的退火策略对收敛性影响巨大。
半监督：无监督损失权重λ 需要仔细调整。太小则无法有效利用无标签数据；太大则可能被无标签数据上的噪声主导，损害模型在有标签数据上的性能。通常采用随训练进程变化的“warm-up”策略。

常见误区与边界情况

误区：自监督学习 = 无监督学习
- 辨析：自监督学习是无监督学习的一个子集，但其方法论非常独特。传统无监督学习（如K-Means）直接对数据结构建模，而自监督学习通过创造监督信号来将问题转化为一个类似监督学习的优化过程。面试时，强调“代理任务”和“伪标签”是区分两者的关键。
误区：半监督学习 vs. 自监督学习
- 辨析：两者都使用无标签数据，但目标和流程不同。
  - 半监督：目标是解决一个特定的下游任务，它在同一个训练流程中同时使用有标签和无标签数据来优化该任务的模型。
  - 自监督：目标是学习通用的特征表示。它通常分为两个阶段：先在海量无标签数据上预训练，再在下游任务的有标签数据上微调。SSL预训练出的模型是任务无关的，可以服务于多个下游任务。
误区：强化学习的“奖励”就是监督学习的“标签”
- 辨析：这是根本性的混淆。
  - 标签 (Label)：提供的是正确答案，是即时的、确定的、稠密的指导。它告诉模型“对于这个输入，你应该输出什么”。
  - 奖励 (Reward)：提供的是对行为好坏的评价，通常是稀疏的、延迟的、带有随机性的。它只告诉模型“你刚才的行为是好是坏”，而不告诉它“正确的行为是什么”。这导致了RL中著名的“信用分配问题”（Credit Assignment Problem）。
边界情况：弱监督学习 (Weakly Supervised Learning)
- 这是一个常被混淆的相关概念。弱监督学习属于监督学习的范畴，但其标签是不完整、不精确或含噪声的。例如，使用图片级别的标签（“包含一只猫”）来训练一个目标检测模型（需要标出猫的位置）。它与半监督学习的区别在于，弱监督的所有数据都有标签，只是标签质量不高；而半监督则是有部分数据完全没有标签。
面试追问：
- 问：“为什么近年来自监督学习（特别是对于大模型）变得如此流行？”
  - 答：关键在于可扩展性 (Scalability)。互联网上有海量的无标签文本和图像数据，而人工标注的成本和速度远远跟不上数据增长。自监督学习巧妙地利用这些“免费”数据进行预训练，极大地降低了对昂贵标注数据的依赖。随着算力的提升，模型规模可以做得非常大，从而从海量数据中学到更通用、更强大的知识，这正是大模型（Foundation Models）成功的基础。
- 问：“在什么情况下，半监督学习可能会比纯监督学习的效果更差？”
  - 答：当半监督学习的核心假设被违背时。例如，聚类假设认为数据在高密度区域形成簇，决策边界应穿过低密度区域。如果未标注数据的分布结构与已标注数据的分类边界相冲突（例如，不同类别的样本在特征空间中混合在一起，没有清晰的界限），强行使用未标注数据可能会引入噪声和错误的归纳偏置，导致模型性能下降，这种现象称为“负迁移”(Negative Transfer)。