大模型黑话指南（三）

大模型开发/技术交流

P-tuning
大模型训练
SFT

2023.08.2210031看过

前几天梳理了一些黑话指南，得到了社区朋友们不错的反馈。创作欲这就上来了，怒更一篇！希望自己学的再快一点，边学边练，边练边学。前两期的内容在这里：大模型黑话指南（一）大模型黑话指南（二）

监督训练

在监督学习中（也称为从演示中学习或“指令微调”），我们会收集一组人类编写的文本，这些文本以问题或指令的形式出现，并包含了期望的输出。例如，这些文本可以是某一问题和答案，或者是像带有人类编写总结的summarize the following text {text}这样的任务。通过在相同的“给定前缀预测下一个token”的目标上继续训练模型，但这次是在指令-输出对集合上，模型学会通过执行指令来响应。即模型接收到给定问题的正确输出的演示，并学会复制输出结果。我们希望通过这种方式将其泛化到训练中尚未出现的问题中去。

强化学习（RL）

在强化学习中，我们为模型提供指令，但并不提供人工编写的答案。模型需要自己生成答案。评分机制（例如人类）会读取生成的答案，并告诉模型这些答案的质量，模型的目标是如何回答以获得高分。

P- Tuning

是GPT模型微调中的一种技术，是在Fine-tuning方法基础上进行改进而形成的一种参数高效的微调方法。P-tuning只有少量参数参与训练，训练计算复杂度相对较小，适合少数据量场景。它的原理是将人工提示词模板转换成可学习的连续向量，通过下游任务的学习来优化连续向量，从而自动学出好的自动提示模板。

Post-training

是一种迁移学习技术,它在预训练语言模型的基础上,通过下游任务的数据集和监督信号,更新与任务相关的层,帮助模型迁移到下游任务。通常将预训练模型中的Transformer encoder层的参数保持固定,只更新后续的任务特定层,如分类器层的参数。它使用的是下游任务的数据集和标签,采用监督学习的方式进行模型优化。所以Post Pretrain是为了获得一个更强大的通用语言模型,它继续采用无标记数据预训练整个预训练模型。而Post-training是一种迁移学习方法,为了帮助GPT模型迁移到下游任务,它只更新与任务相关的层的参数。

Post-Pretrain

预训练之后,继续使用无监督数据对整个模型进一步预训练，调全部参数，指我们在基础模型预训练之后,继续使用无标记数据对整个模型进行预训练。它的目的是继续提高模型的通用语言表示能力,得到一个更强大的语言模型。

数据集

在微调模型中，我们经常会碰到训练集、验证集、测试集这三个数据集。它们的作用和区别如下：

训练集（Training Set）：训练集用于训练模型。在模型训练过程中，训练集中的数据被用来调整模型的权重和参数，从而使模型逐渐适应输入数据和目标输出。简单来说，训练集就是用来建立模型的。
验证集（Validation Set）：验证集用于在训练过程中评估模型性能。通过将部分数据划分为验证集，我们可以实时检测模型在独立数据集上的泛化能力。这有助于调整超参数、避免过拟合等。当模型在训练集上表现得很好但在验证集上表现较差时，通常说明发生了过拟合现象。验证集还可以用于模型选择——当我们尝试许多不同模型或模型结构时，可以通过比较它们在验证集上的表现来选择最优的一个。
测试集（Test Set）：测试集是在完成模型训练、调整和选择后用于评估模型最终性能的数据集。测试集对模型未知，这意味着在训练和验证过程中，模型从未见过测试集中的数据。这使得我们能够通过测试集评估模型在实际应用中遇到新数据时的泛化性能。理想情况下，在测试集上的性能可以预测模型在实际场景中的表现。

评估模型的一些指标

准确率（Accuracy）：分类问题中，准确率是正确分类的样本数量除以总样本数。就像你在数学测试中得到的分数，是模型正确预测的结果与总试题数量之比。比如说，你做了10道题，答对了7道，那你的准确率就是7/10=70%。
精确率（Precision）：在分类问题中（通常是二分类），精确率是真正例（TP, True Positive）除以所有被预测为正例的样本数量（真正例+假正例，即 TP+FP）。在预测为“对”的那些结果中，真正对的占多少。比如你猜了5次都会下雨，但实际上只有3次下雨了，那么你的精确率是3/5=60%。
召回率（Recall）：又称为敏感度（Sensitivity）或者真正例率（True Positive Rate, TPR），是真正例（TP）除以所有实际为正例的样本数量（真正例+假反例，即 TP+FN）。对于所有真正需要预测为“对”的情况，你抓住了多少。还是上面下雨的例子，假如本来有4次应该要下雨，你抓住了其中的3次，那召回率就是3/4=75%。
F1-score：是精确率和召回率的调和平均值，兼顾了精确率和召回率的关系。F1-score 提供了一个同时考虑精确率和召回率的简洁度量方法。是精确率和召回率的平衡，可以看作他们的“平均值”。一个好的模型需要两者都高，而F1-score能够给出一个整体评价。类似于考试期间总分和平均分。
均方误差（Mean Squared Error, MSE）：主要用于回归问题中，衡量预测值与实际值之间的差距。计算方式是预测值与实际值差值的平方的平均值。是预测值与真实值差距平方的平均值。例如，你猜苹果有5个，但实际上有6个，误差是1，错得越多，均方误差就越大。像考试的时候，老师计算学生平均失分。
R²（R-squared）：主要用于回归问题中，表示模型对数据的拟合程度。简单来说，R² 衡量的是模型解释观察到的变化所占的百分比。R² 的取值范围为0到1，值越接近1说明模型能够更好地拟合数据。这个有点像“解释程度”，衡量模型解释数据中变动的能力。假设R²=0.9，意味着我们的模型能解释90%的真实情况，离完美预测还差10%。类似于课程评分百分比，请尽量达到100%。

大模型黑话指南（三）

监督训练

强化学习（RL）

P- Tuning

Post-training

Post-Pretrain

数据集

评估模型的一些指标

热点话题

百度智能云两大基础设施再升级！百度沈抖：让企业拥有创造“创造的能力”

一文回顾Create2025重要发布！模型、应用、MCP…应有尽有

百度沈抖：智能基础设施，为应用而生

最新文心大模型上线千帆，性能飞跃，价格大降