logo
话题头图

模型蒸馏功能板块上线,DeepSeek系列模型服务再升级:千帆ModelBuilder更新不停

发展不停,千帆ModelBuilder更新不断。千帆ModelBuilder2月21日晚已上线新的小版本更新,此次更新主要围绕模型服务和工具链展开,围绕DeepSeek系列模型在推理能力、训练方法、模型蒸馏等方面做了全新升级。
⬇️以下为详细内容⬇️
登录百度智能云千帆ModelBuilder平台同步进行文字和功能的体验效果更佳

PART-1

模型服务升级
1、调整开源模型(DeepSeek-V3、DeepSeek-VL2系列)的temperature参数取值范围至 [0,2]2、离线批量推理支持DeepSeek满血版及蒸馏版。包括:DeepSeek-R1、DeepSeek-V3、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-1.5B。

PART-2

工具链升级
1、DeepSeek系列深度推理模型会输出思维链内容(Reasoning_Content ),可以将模型输出保存到推理结果集中。您可以使用含思维链内容的数据进一步SFT,强化模型的思维链能力。
2、丰富DeepSeek蒸馏模型的训练链路,SFT中新增DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-7B模型的训练,通过全量/LoRA训练方法,提升大模型在特定任务场景下的输出效果。
3、上线「模型蒸馏」功能板块,并预置DeepSeek-R1、DeepSeek-V3、ERNIE-4.0-Turbo-8K作为教师模型实现批量推理,选择学生模型进一步SFT,降低您准备数据的门槛,快速提升模型效果。
    • 模型蒸馏核心思想是利用一个效果较好的大参数规模模型(称为“教师模型”)的知识,来指导一个较小参数规模的模型(称为“学生模型”)的训练,使得学生模型在参数量和计算复杂度较低的情况下,尽可能接近甚至超越教师模型的效果。
4、新增模型蒸馏场景样板间,深入解析如何利用百度智能云千帆ModelBuilder完成一键式的模型蒸馏能力,并通过实战使用教师模型DeepSeek-R1蒸馏轻量级模型ERNIE Speed的过程和效果。
5、新增训练方法工具链LoRA-GA,其在精调效果、遗忘性与收敛速度方面,在数学等场景中相较于LoRA表现较好。
评论
用户头像