9 如果评估微调过程

LOSS 是什么?

LOSS 是一个可微的数学函数量化模型预测与真实值的误差输出,

数值值越大表示错误越大

注意: loss 和模型微调实际效果是没必然联系的, 只是观察微调过程是否正常

微调时用它干什么?

微调的核心目标就是 LOSS 变得越来越小。

作为优化目标指导参数更新方向评估训练效果决定何时停止训练

怎么变小?

通过梯度下降算法调整模型参数, 基本上就是上一个文章提到的超参数的调整

场景的几个场景调整

1. Loss 持续不降:训练过程中 Loss 始终保持高位,无下降趋势

• 学习率(Learning Rate)过小:參数更新幅度不足,模型难以优化
• 数据无规律:数据中存在大量异常值, 数据集太差了

  1. Loss 持续下降但不收敛:Loss 一直在下降,但收敛速度极慢,训练结束时仍未达到理想水平

• 训练轮致太小
• 学习串(Learning Rate)过大:參数更新幅度过大

  1. Loss 覆荡波动:Loss 曲线上下一直波动

• 批量大小(Batch Size) 过小:单次更起伏,无稳定下降趋势。

结合验证集的 loss 曲线再评估

场景几个情况:

image.png

这个图像展示了四种典型的训练损失和验证损失曲线模式:

  1. 欠拟合(左上):训练损失和验证损失都居高不下,平行停滞
    1. 需要调大学习率、Lora 秩,或者增强致据集质量。
  2. 过拟合(右上):训练损失持续下降,验证损失先降后升,形成经典的过拟合模式
    1. :降低学习率、增加正则化、早停、增加数据量
  3. 数据分布问题(左下):训练损失高,验证损失低,存在明显差距
    1. 验证集可能比训练集简单,包含更多噪声或难例
    2. 验证集样本量可能过小,不具代表性
  4. 理想状态(右下):训练损失和验证损失同步下降,健康收敛