logo
话题头图

模型蒸馏功能板块上线,DeepSeek系列模型服务再升级:千帆ModelBuilder更新不停

发展不停,千帆ModelBuilder更新不断。千帆ModelBuilder2月21日晚已上线新的小版本更新,此次更新主要围绕模型服务和工具链展开,围绕DeepSeek系列模型在推理能力、训练方法、模型蒸馏等方面做了全新升级。⬇️以下为详细内容⬇️
登录百度智能云千帆ModelBuilder平台同步进行文字和功能的体验效果更佳,平台网址:https://qianfan.cloud.baidu.com/modelbuilder?track=cptg
模型服务升级
1、调整开源模型(DeepSeek-V3、DeepSeek-VL2系列)的temperature参数取值范围至 [0,2]2、离线批量推理支持DeepSeek满血版及蒸馏版。包括:DeepSeek-R1、DeepSeek-V3、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-1.5B。
工具链升级
1、DeepSeek系列深度推理模型会输出思维链内容(Reasoning_Content ),可以将模型输出保存到推理结果集中。您可以使用含思维链内容的数据进一步SFT,强化模型的思维链能力。2、丰富DeepSeek蒸馏模型的训练链路,SFT中新增DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-7B模型的训练,通过全量/LoRA训练方法,提升大模型在特定任务场景下的输出效果。3、上线「模型蒸馏」功能板块,并预置DeepSeek-R1、DeepSeek-V3、ERNIE-4.0-Turbo-8K作为教师模型实现批量推理,选择学生模型进一步SFT,降低您准备数据的门槛,快速提升模型效果。
    • 模型蒸馏核心思想是利用一个效果较好的大参数规模模型(称为“教师模型”)的知识,来指导一个较小参数规模的模型(称为“学生模型”)的训练,使得学生模型在参数量和计算复杂度较低的情况下,尽可能接近甚至超越教师模型的效果。
4、新增模型蒸馏场景样板间,深入解析如何利用百度智能云千帆ModelBuilder完成一键式的模型蒸馏能力,并通过实战使用教师模型DeepSeek-R1蒸馏轻量级模型ERNIE Speed的过程和效果。
5、新增训练方法工具链LoRA-GA,其在精调效果、遗忘性与收敛速度方面,在数学等场景中相较于LoRA表现较好。

以上为此次更新全部内容,也欢迎大家扫描下方二维码添加小助手,加入千帆ModelBuilder产品交流群;在这里我们接受产品吐槽、产品需求的提出~
评论
用户头像