§1.2.21

K-Fold、Stratified、LOO、GroupKFold 的差异？

核心概念

交叉验证（Cross-Validation, CV）是一种评估机器学习模型泛化能力的统计学方法。它将数据集划分为多个子集，轮流将其中一个子集作为测试集，其余子集作为训练集，通过多次训练和评估来获得更稳定、更可靠的模型性能度量，以避免因单次划分的随机性带来的评估偏差。

K-Fold Cross-Validation (K折交叉验证)：将数据集随机划分为 K 个大小相似的互斥子集（称为"折"）。在 K 次迭代中，每次选择一个不同的折作为测试集，其余 K-1 个折合并作为训练集。最终的性能指标是 K 次评估结果的平均值。
Stratified K-Fold (分层K折交叉验证)：K-Fold 的一种变体，主要用于处理类别不平衡的分类问题。在划分 K 个折时，它会确保每个折中的类别比例与原始数据集中完全一致。这可以防止在某个折中某个类别样本过少或缺失，从而得到更可信的评估结果。
Leave-One-Out (LOO, 留一法)：K-Fold 的一个极端特例，其中 K 等于数据集的样本总数 N。在 N 次迭代中，每次只留下一个样本作为测试集，其余 N-1 个样本全部用于训练。
GroupKFold (分组K折交叉验证)：专门用于处理具有分组结构的数据。它确保来自同一个组的所有样本要么同时出现在训练集中，要么同时出现在测试集中，而绝不会被分割。这对于防止因组内样本相关性导致的数据泄露至关重要。

原理与推导

1. K-Fold Cross-Validation

原理: 假设数据集 $D$ 包含 $N$ 个样本。K-Fold 将 $D$ 随机划分为 $K$ 个不相交的子集 $D_1, D_2, \dots, D_K$ ，每个子集大小约为 $N/K$ 。对于第 $k$ 次迭代 ( $k=1, \dots, K$ ):

测试集: $Test_k = D_k$
训练集: $Train_k = D \setminus D_k = D_1 \cup \dots \cup D_{k-1} \cup D_{k+1} \cup \dots \cup D_K$

模型 $M_k$ 在 $Train_k$ 上训练，然后在 $Test_k$ 上评估，得到性能度量 $E_k$ (例如，准确率、MSE)。最终的交叉验证性能是所有 $K$ 次评估的平均值： $\text{CV}_{\text{K-Fold}} = \frac{1}{K} \sum_{k=1}^{K} E_k$

推导与解释:

动机: 单次划分的训练集/测试集可能具有偶然性。例如，一次随机划分可能恰好把所有"难"样本都分到了测试集，导致模型性能被低估。通过平均 K 次的结果，可以平滑这种随机波动，得到一个方差更小、更接近模型真实泛化能力的估计。
几何解释: 想象在样本空间中，每次划分都是在空间中画一条分割线。K-Fold 相当于从 K 个不同的角度画分割线，然后综合观察模型的表现，而不是只依赖于一次分割的结果。
复杂度:
- 时间复杂度: $O(K \cdot T_{\text{train}}(N(1 - 1/K)))$ ，其中 $T_{\text{train}}(m)$ 是在 $m$ 个样本上训练模型所需的时间。基本上是训练一个模型的 K 倍。
- 空间复杂度: 主要由模型本身决定，CV 过程本身只需要额外的空间来存储索引。

2. Stratified K-Fold

原理: Stratified K-Fold 的核心是在 K-Fold 的基础上增加了"分层"约束。假设数据有 $C$ 个类别，每个类别的样本数分别为 $N_1, N_2, \dots, N_C$ 。在划分 K 个折时，必须保证每个折 $D_k$ 中，第 $c$ 个类别的样本数约等于 $N_c / K$ 。

推导与解释:

动机: 在类别不平衡的数据集上（例如，99% 的负样本，1% 的正样本），标准的 K-Fold 可能会产生一个完全不包含正样本的测试折。在这种情况下，模型在该折上的召回率等指标将无法计算或产生误导。分层抽样确保了每个折都是原始数据集类别分布的一个缩影，使得评估指标在每个折上都有意义且更加稳定。
信息论解释: 分层抽样保持了每个折与整体数据集在类别分布上的信息熵一致性，使得评估更具代表性。

3. Leave-One-Out (LOO)

原理: LOO 是 K-Fold 的特例，其中 $K=N$ 。对于第 $i$ 次迭代 ( $i=1, \dots, N$ ):

测试集: $Test_i = \{ (x_i, y_i) \}$ (第 i 个样本)
训练集: $Train_i = D \setminus \{ (x_i, y_i) \}$ (除第 i 个样本外的所有样本)

模型 $M_i$ 在 $Train_i$ 上训练，然后在 $Test_i$ 上评估，得到损失 $L(y_i, \hat{f}^{-i}(x_i))$ ，其中 $\hat{f}^{-i}$ 是在 $Train_i$ 上训练得到的模型。最终的 LOO 交叉验证误差是： $\text{CV}_{\text{LOO}} = \frac{1}{N} \sum_{i=1}^{N} L(y_i, \hat{f}^{-i}(x_i))$

推导与解释:

偏差-方差权衡:
- 低偏差 (Low Bias): 每次训练都使用了 $N-1$ 个样本，这与使用全部 $N$ 个样本训练得到的模型非常接近。因此，LOO 评估出的模型性能，是对"在整个数据集上训练的模型"的性能的一个几乎无偏的估计。
- 高方差 (High Variance): $N$ 个训练集彼此之间高度相似（只差一个样本），导致训练出的 $N$ 个模型也高度相关。对这些高度相关的结果求平均，其结果的方差会很大，不够稳定。这与 K-Fold (K较小) 中 K 个模型训练集差异较大，模型间相关性低，平均后方差小形成对比。
复杂度:
- 时间复杂度: $O(N \cdot T_{\text{train}}(N-1))$ ，对于样本量稍大的数据集，计算成本极高，通常不可行。

4. GroupKFold

原理: 假设数据集中的样本可以根据某个特征（如用户ID、病人ID）聚合成 $G$ 个组。GroupKFold 在划分数据时，以"组"为最小单位。它将 $G$ 个组划分为 K 个折，而不是将 $N$ 个样本划分为 K 个折。

推导与解释:

动机: 防止数据泄露 (Data Leakage)。例如，在医疗影像诊断中，一个病人可能有多张CT扫描图。如果使用标准 K-Fold，来自同一个病人的图片可能一张在训练集，另一张在测试集。模型可能会学会识别"病人A的CT纹理特征"，而不是通用的"疾病特征"。这会导致模型在交叉验证中表现虚高，但在面对新病人时表现很差。GroupKFold 保证了同一个病人的所有图片要么都在训练集，要么都在测试集，从而迫使模型学习更具泛化性的特征。
算法:
1. 确定所有唯一的组ID。
2. 将组ID列表划分为 K 个折。
3. 对于第 $k$ 个折，将该折中所有组ID对应的全部样本作为测试集。

代码实现

下面使用 scikit-learn 来演示这四种交叉验证方法的区别。

python

 1import numpy as np
 2from sklearn.model_selection import KFold, StratifiedKFold, LeaveOneOut, GroupKFold
 3
 4# 准备一个示例数据集
 5# X: 特征, 10个样本, 2个特征
 6X = np.random.randn(10, 2)
 7
 8# y: 标签, 类别不平衡 (8个0, 2个1)
 9y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 1, 1])
10
11# groups: 分组信息, 4个组
12# 样本0,1属于组0; 样本2,3属于组1; 样本4,5,6属于组2; 样本7,8,9属于组3
13groups = np.array([0, 0, 1, 1, 2, 2, 2, 3, 3, 3])
14
15print("原始数据:")
16print(f"X shape: {X.shape}")
17print(f"y: {y}")
18print(f"groups: {groups}\n")
19
20def print_cv_splits(name, cv_splitter, X, y, groups=None):
21    """一个辅助函数，用于打印交叉验证的划分结果"""
22    print(f"--- {name} ---")
23    # .split() 方法返回 (训练集索引, 测试集索引) 的生成器
24    for i, (train_idx, test_idx) in enumerate(cv_splitter.split(X, y, groups)):
25        print(f"  Fold {i+1}:")
26        print(f"    Train indices: {train_idx}")
27        print(f"    Test indices:  {test_idx}")
28        # 检查测试集中的类别分布
29        if y is not None:
30            print(f"    Test labels:   {y[test_idx]}")
31        # 检查测试集中的组分布
32        if groups is not None:
33            print(f"    Test groups:   {groups[test_idx]}")
34    print("\n")
35
36
37# 1. K-Fold (n_splits=3)
38# 为什么这样做: 这是最基础的交叉验证，它随机划分数据，不考虑标签或组信息。
39# 注意：为了可复现和避免数据顺序影响，通常建议设置 shuffle=True
40kf = KFold(n_splits=3, shuffle=True, random_state=42)
41print_cv_splits("K-Fold (3 splits)", kf, X, y)
42
43# 2. Stratified K-Fold (n_splits=3)
44# 为什么这样做: 我们的y标签是不平衡的。使用分层抽样可以确保每个折的测试集中都包含与原始数据相同比例的正负样本。
45# 注意：对于3折，2个正样本无法平均分配，sklearn会近似分配(1,1,0)。如果n_splits>少数类样本数，会报错。
46# 这里我们用 n_splits=2 来清晰地展示分层效果。
47skf = StratifiedKFold(n_splits=2, shuffle=True, random_state=42)
48print_cv_splits("Stratified K-Fold (2 splits)", skf, X, y)
49
50# 3. Leave-One-Out (LOO)
51# 为什么这样做: 演示K-Fold的极端情况，每次只用一个样本做测试。
52# 这在计算上非常昂贵，但能提供一个近乎无偏的性能估计。
53loo = LeaveOneOut()
54# 只打印前3个折，否则输出太多
55print("--- Leave-One-Out ---")
56for i, (train_idx, test_idx) in enumerate(loo.split(X)):
57    if i < 3:
58        print(f"  Fold {i+1}:")
59        print(f"    Train indices: {train_idx}")
60        print(f"    Test indices:  {test_idx}")
61print("  ... (and so on for all 10 samples)\n")
62
63
64# 4. GroupKFold (n_splits=3)
65# 为什么这样做: 当数据有关联性时（例如来自同一用户的多条记录），必须使用GroupKFold。
66# 它能确保同一组的数据不会同时出现在训练集和测试集中，防止数据泄露。
67# 注意：GroupKFold不要求shuffle，因为它按组进行划分。n_splits不能大于总组数。
68gkf = GroupKFold(n_splits=3) # 总共有4个组，所以最多可以分4折
69print_cv_splits("GroupKFold (3 splits)", gkf, X, y, groups)

工程实践

默认选择: 对于分类问题，StratifiedKFold 通常是最佳的默认选择，因为它既稳健又高效，能处理类别不平衡问题。对于回归问题，K-Fold (带 shuffle=True) 是标准选择。
K值的选择:
- K=5 或 K=10 是最常见的选择，被认为是偏差和方差之间的良好折衷。
- 较小的 K (如 3): 训练集更小，评估的偏差更大；但不同折之间的训练集重叠少，模型差异大，评估结果的方差更小。计算速度快。
- 较大的 K (如 20, N-1): 训练集更大，接近完整数据集，评估的偏差更小；但训练集之间高度重叠，模型相关性高，评估结果的方差更大。计算速度慢。
性能权衡:
- LOOCV: 除非数据集极小（如 N < 100），或者有特定的算法（如线性回归、核回归）可以利用数学技巧来快速计算LOO误差，否则在现代机器学习（尤其是深度学习）中几乎从不使用，因为其计算成本 ( $O(N)$ 次训练) 无法接受。
- GroupKFold: 当数据存在分组结构时，必须使用 GroupKFold 或类似的按组划分策略（如 StratifiedGroupKFold）。使用错误的CV方法会导致模型在验证集上性能虚高，部署到生产环境后效果会急剧下降。这是竞赛和工业界项目中一个极其重要的点。
常见场景:
- 图像分类: 如果每个类别图片很多，用 StratifiedKFold。
- 医疗诊断: 数据来自不同病人，每个病人有多张影像或多次记录。必须用 GroupKFold，groups 参数是病人ID。
- 推荐系统: 数据来自不同用户，每个用户有多个行为。评估时需用 GroupKFold，groups 参数是用户ID，以测试模型对新用户的泛化能力。
- 时间序列预测: 不能用上述任何一种，因为它们都破坏了数据的时间顺序。应使用 TimeSeriesSplit 或自定义的滚动窗口验证。

常见误区与边界情况

误区1: 交叉验证是用来训练最终模型的。
- 纠正: 交叉验证的核心目的是模型评估和超参数选择。它告诉你一组给定的超参数（如学习率、网络深度）和一个模型架构大概有多好。在通过交叉验证找到了最佳超参数后，你应该使用全部数据来重新训练一个最终模型进行部署。部署的模型不是 K 个模型中的任何一个。
误区2: LOOCV 是最准确的，因为它用了最多的数据来训练。
- 纠正: LOOCV 的评估结果是低偏差的，但通常是高方差的。这意味着它的评估结果可能离真实泛化误差的期望值很近，但单次LOOCV实验的结果可能波动很大，不够稳定可靠。相比之下，K-Fold (K=5,10) 的评估结果偏差稍高，但方差更低，通常更受青睐。
误区3: 在交叉验证前对整个数据集进行预处理。
- 纠正: 这是一个常见且严重的数据泄露。例如，如果你对整个数据集计算均值和方差来进行标准化，那么测试集的信息（均值/方差）就已经"泄露"给了训练集。正确的做法是在交叉验证的每个循环内部，仅根据当前的训练集来计算预处理参数（如均值、方差、PCA主成分），然后将这些参数应用到训练集和测试集上。在 scikit-learn 中，使用 Pipeline 可以很方便地做到这一点。
边界情况1: StratifiedKFold 中 n_splits 大于任一类别的样本数。
- scikit-learn 会抛出 ValueError，因为无法将一个只有 m 个样本的类别分到 k > m 个折中去，同时还要保证每折都有该类别的样本。
边界情况2: GroupKFold 中组的大小分布极不均匀。
- 如果一个或几个组包含绝大多数样本，那么 GroupKFold 划分出的测试集大小可能会有巨大差异，导致评估指标的方差增大。虽然没有完美的解决方案，但了解数据中组的分布情况很重要。
面试追问: 如果你的数据既有类别不平衡问题，又有分组结构，该怎么办？
- 回答要点: 这是一个复合问题。标准的 GroupKFold 不保证分层。StratifiedKFold 不处理分组。理想的解决方案是 StratifiedGroupKFold。scikit-learn 在 model_selection 中提供了这个类。它会首先尝试在组的层面上进行分层抽样，以确保每个折中的类别分布尽可能接近整体分布，同时严格遵守组的边界。这是处理复杂真实世界数据集时非常有用的高级工具。