Supervised Fine-Tuning 监督微调

微调的一种方式,用标签数据对模型做参数调整,使其适应特定任务。

SFT 不是明确的算法,而是微调的方法论。

执行过程

SFT 的执行需要三种“原材料”:一个预训练模型、一组和应用相关的标签数据、选择一个微调算法。

微调算法根据调整参数的范围不同,可以分为:

  • 全量微调:利用标签数据对预训练模型参数做全量微调
  • PEFT:部分微调,冻结绝大部分参数,仅优化少量的适配层。即保持预训练模型的绝大部份参数不变。
  • 超参数调优:监控关键参数和过拟合的情况