“千帆杯”第二期十万大奖花落谁家？TOP10名单出炉！

大模型开发/技术交流

千帆杯挑战赛

3月7日5767看过

春节档“最强贺岁文案专家”

千帆杯AI原生应用开发挑战赛第二期赛题“贺岁灵感模型”已于2月28日圆满结束。经过严格的自动评估和人工复审后，现已决出TOP10选手！

第二期赛题，结合新春佳节的背景以“贺岁灵感模型”为主题，鼓励开发者使用千帆ModelBuilder，基于ERNIE Speed模型打造一个春节文案创作的精调模型，在通过对模型精调使其保持原有能力的同时，还能准确理解和执行文案创作，帮助用户成为春节档“最强贺岁文案专家”。

本期赛题主要通过千帆ModelBuilder工具链中“模型评估”的部分能力以及人工评估做整体评审，全方位保证评审结果的公平、公正、公开。

>>第一轮：自动评估（满分1分）

以“内容分”和“字数控制分”为主要考核指标，两项标准分别占据0.6、0.4的权重，通过加权平均后，得出“选手模型”的作品分数。

内容分（占据0.6权重）：官方输入包含内容及字数要求的评测数据集，以ERNIE Bot 4.0作为裁判，如果“选手模型”答案比数据集答案更好则得分，反之则不得分。如果ERNIE Bot 4.0没有明确返回评测数据集答案更好，均算作“选手模型”得分。
字数控制分（占据0.4权重）：基于官方评测数据集的字数要求，根据“选手模型”的全量回答综合得出最终字数控制评分。
具体规则：根据“选手模型”答案字数与评测数据集中字数要求的diff进行分段打分，具体分段分数如下：

diff ≤ 0.05，得1分
0.05 < diff ≤ 0.1，得0.9分
0.1 < diff ≤ 0.15，得0.8分
0.15 < diff ≤ 0.2，等0.7分
0.2 < diff ≤ 0.25，得0.6分
其余则不得分

举例：如评测数据要求为300字，选手模型返回290字，则diff为：（300-290）/300=0.033，最终得分因0.033 ≤ 0.05，因此在该评测数据下字数控制得1分。

>>第二轮：人工评估（满分1分）

为了保证自动评估的结果，官方针对自动评估得出的TOP 12“选手模型”安排了第二轮人工评估。（由于选手比分较为接近，因此官方对TOP 12“选手模型”进行人工评估）

人工评估由三位百度专家通过人工查验的方式进行，专家通过对参赛选手所提供的模型微调方案进行投票（一位专家最多可投3票），如选手获得三票，即获得满分。

“千帆杯”第二期「最强挑战者」出炉

第二期最强挑战者张辉，带来作品“贺岁灵感模型”，张辉使用ModelBuilder的模型SFT精调工具链，基于ERNIE Speed基座模型，精调训练出了一个能准确控制创作字数的春节贺岁文案模型。

ERNIE Speed模型作为百度在2024年最新发布的自研高性能大语言模型，凭借其轻量级、高效的自然语言处理等特点，可以快速地响应用户需求。同时，其在微调场景下优势显著，模型的训练时间更短，成本更低，特定场景下的效果可媲美ERNIE Bot 4.0。

自2月发布上线以来，目前已有超过150家企业采用了ERNIE Speed模型，它除了能做到快速响应外，作为基础通用大模型，在阅读理解、close-book问答、创作与续写等复杂任务上，也能达到甚至超越千亿大模型的效果。每一位开发者，都可以在ERNIE Speed的助力下，快速实现企业级的专属模型训练，探索AI大模型的无限可能。

更多AI的想象值得期待

3月21日，百度智能云将在北京举行AI Cloud Day：百度智能云千帆产品发布会。作为2024年AI领域最值得期待的系列产品发布会，诚挚邀请所有技术爱好者共襄盛举。届时，百度智能云千帆ModelBuilder和AppBuilder也将公布最新产品进展，发布系列新模型以及应用开发工具组件等，分享如何助力企业、用户释放模型创新潜能，简单高效打造AI原生应用，推动中国AI原生应用的发展，共同迈入崭新的AI生产力的最新纪元。

详情可查看：https://cloud.baidu.com/qianfandev/topic/268673

“千帆杯”第二期十万大奖花落谁家？TOP10名单出炉！

“千帆杯”第二期「最强挑战者」出炉

更多AI的想象值得期待

热点话题

【千帆大模型训练营】 开启大模型卓越之门：模型优化的关键钥匙 直播回放

【千帆大模型训练营】 解锁大模型新高度：模型蒸馏与数据飞轮 课程预告

教育场景下大模型应用的构建 学习领取奖励指南

【千帆大模型训练营】 揭秘大模型的 “成绩单”：模型评估之旅 直播回放

【千帆大模型训练营】开启大模型卓越之门：模型优化的关键钥匙直播回放

【千帆大模型训练营】解锁大模型新高度：模型蒸馏与数据飞轮课程预告

教育场景下大模型应用的构建学习领取奖励指南

【千帆大模型训练营】揭秘大模型的 “成绩单”：模型评估之旅直播回放