logo

AppBulider上新Speed模型测评

背景

最近看到AppBulider上新了ERNIE Speed模型,该模型作为思考模型可以很快完成任务规划和选择组件,今天我专门做了个小Agent应用来测试下它的规划能力,考虑到控制变量问答模型都使用ERNIE-4.0,对照组则在思考模型与问答模型上都选择使用ERNIE-4.0。(由于调试台不会显示运行时间因此采用录屏的方式计算时间)
因为考验的是规划能力,我在该Agent应用上添加了如下图所示三个组件以及上篇文章中创建的知识库。
并对每个组件准备了若干问题来测试该Agent应用能力及反馈时间。

测试组件以及对应问题

  1. 天气查询:
今天北京天气怎么样
我该穿什么衣服
我明天要去云南需要注意什么吗
  1. 代码解释器
Leetcode239题滑动窗口最大值:
给你一个整数数组 nums,有一个大小为 k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。
返回 滑动窗口中的最大值。
追问:
有没有其他解法
  1. 图片内容理解
YOLOv8中经典图片
  1. 南瓜书知识库
介绍下支持向量机原理
根据回答进行追问

测试结果及结论

测试结果如下:
调用组件
小问
Speed+ERNIE-4.0
ERNIE-4.0+ERNIE-4.0
天气查询
1
33.017s
25.250s
2
17.817s
19.567s
3
35.750s
37.717s
代码解释器
4
69.867s
42.300s
5
24.367s
28.733s
图片内容理解
6
35.283s
37.650s
知识库
7
29.700s
23.783s
8
21.350s
16.583s

Speed+ERNIE-4.0在1、4、7、8 四个小问题上时间短于ERNIE-4.0+ERNIE-4.0,在测试过程中能够直观地感受到选择工具的思考时间远小于推理时间,甚至思考规划所减少对时间不如网络以及并发量等因素对时间的影响大。
另外测试过程中Agent的组件调用与回答有些许地方不同,比如:
  1. 在Speed+ERNIE-4.0(以下称为A组)在第一问的一二三小问都调用了天气组件而ERNIE-4.0+ERNIE-4.0(以下称为B组)只在一三小问中调用了天气组件(虽然B组在第三小问错误地调用了知识库)。
  1. 在第二问中A组调用了代码解释器而B组则没有,其实回过头来看这个问题并不需要调用代码解释器,而且B组在第二小问中回答比A组突出很多(A组错误地调用了知识库的内容),既然问答模型都是一样的,那可能是偶然原因?
剩下的两个问题AB组都调用了正确的组件同时也有很好的回答。个人看来这么多组件以及多个领域的问题在实际环境中很难碰到,而Speed作为思考模型表现还可以,结合Speed在价格跟速度上的优势,确实能够在一定程度上替代ERNIE-4.0。
本次测试难免受到并发量及网络因素影响,可能会与其他测试结果有出入,测试结果仅供参考。
评论
用户头像