一文搞懂:Ernie系列模型的QPS、RPM、TPM有什么不一样
大模型开发/技术交流
- 文心大模型
- LLM
- 大模型训练
9月12日9709看过
速率限制说明
1、什么是速率限制?
单位时间段内,用户访问API服务的次数/消耗tokens数的上限。
2024年1月17日之前,千帆大模型平台速率限制指标是QPS。
2024年1月17日之后,千帆大模型平台速率限制指标扩充到以下两种:QPS和TPM,不同类型的模型服务速率限制指标不同,详见模块3。
1.1、概念解释:
-
QPS(Queries Per Second):每秒处理查询次数。
例如:ERNIE-Bot 预置服务,默认QPS=5,即API每秒最多可以处理5个请求。
-
RPM(Requests Per Minute):每分钟处理请求数。
-
TPM(Tokens Per Minute):每分钟处理tokens数(输入+输出)。
例如:ERNIE 3.5 预置服务,默认QPS=5,速率限制升级为RPM/TPM后,默认RPM=300,TPM=300,000,即API每分钟最多可以处理300个请求,最多可以消耗300,000(30万)tokens。
2、为什么要升级速率限制?
速率限制是 API 的常见做法,限制主要原因如下:
-
有助于防止 API 的滥用或误用。例如,防止用户恶意发送大量请求导致服务过载或中断。
-
提高每个用户访问API的公平性。防止因个人或者组织发送过多请求,导致其他人或组织出现调用失败或速度变慢的问题。
-
提升用户使用千帆服务时的流畅度。
3、各预置服务速率限制指标
每项定制服务(除文心大模型家族)开通付费时默认QPS为1,1QPS经过测试验证,预计可支持4000日活,能够满足一般测试需求。
如有QPS扩充需要,您可通过购买托管资源进行扩展,详细操作可参考资源租赁使用说明。
具体数值查看路径:通过千帆控制台点击【模型推理】-进入【预置服务】页面-通过预置服务列表TPM列查看。
文心大模型服务
当前部分文心系列模型开通服务默认速率如下图所示,详细可于在线服务查看:
服务名称
|
RPM
|
TPM
|
操作
|
ERNIE-4.0-8K
|
120
|
120K
|
|
ERNIE-4.0-8K-Latest
|
120
|
120K
|
|
ERNIE-4.0-8K-Preview
|
300
|
300K
|
|
ERNIE-4.0-8K-Preview-0518
|
60
|
60K
|
|
ERNIE-4.0-8K-0613
|
300
|
300K
|
|
ERNIE-4.0-8K-0329
|
120
|
120K
|
|
ERNIE-4.0-Turbo-8K
|
60
|
60K
|
|
ERNIE-3.5-128K
|
不保证并发5K
|
不保证并发400K
|
|
ERNIE-3.5-8K
|
300
|
300K
|
|
ERNIE-3.5-8K-Preview
|
300
|
300K
|
|
ERNIE-3.5-8K-0613
|
300
|
300K
|
|
ERNIE-3.5-8K-0329
|
60
|
60K
|
|
ERNIE-Speed-128K
|
60 5K
|
300K 400K
|
|
ERNIE-Speed-8K
|
600 10K
|
600K 800K
|
|
ERNIE Speed-AppBuilder
|
120
|
120K
|
|
ERNIE-Character-8K
|
60
|
60K
|
|
ERNIE-Functions-8K
|
60
|
60K
|
|
ERNIE-Lite-8K
|
600
|
600K
|
|
ERNIE-Lite-8K-0922
|
300
|
300K
|
|
ERNIE-Lite-AppBuilder-8K
|
60
|
60K
|
|
ERNIE-Tiny-8K
|
600 10K
|
600K 800K
|
|
ERNIE-Novel-8K
|
60
|
60K
|
|
ERNIE-Character-Fiction-8K
|
60
|
60K
|
--
|
ERNIE-4.0-Turbo-8K-Preview
|
60
|
60K
|
|
ERNIE-3.5-8K-0701
|
120
|
120K
|
|
Qianfan-Dynamic-8k
|
60
|
60K
|
|
ERNIE-Speed-Pro-128K
|
10K
|
800K
|
|
ERNIE-Lite-Pro-128K
|
10K
|
800K
|
注意:2024年5月21日起,部分ERNIE系列预置服务调用免费,详细可查看平台公告。
Tip:Embedding系列模型公有云在线调用服务开通时默认为 20QPS。
4、如何提升速率限制
如果用户使用的服务RPM和TPM速率限制较低,无法满足业务要求,可以通过购买TPM实现扩容。
-
购买TPM:用户可以通过预付费或者后付费的方式购买一段时间内一定数量的TPM配额(RPM同倍率变大),成功购买TPM配额以后,不再额外收取tokens调用收费。
-
规格:1个规格的TPM配额包括10,000 TPM + 33 RPM。如果用户买了10个规格,则对应的TPM=100,000 ,RPM=330;
-
TPM配额到期后处理策略:
-
购买TPM配额时,如果系统检测到当前服务没有开通按量后付费,则自动开通按量后付费。TPM配额到期后,为了保证服务的连续性,将自动切换至按量后付费(期间手动关闭按量后付费则无法自动切换)。
-
5、Q&A
-
TPM超限会如何?
以ERNIE 3.5为例进行说明
-
默认RPM=300,如果客户在1分钟之内发送310个请求,只会有300个请求成功,剩余10个请求直接失败。请求失败错误码为336501,错误描述为Rate limit reached for RPM。
-
默认TPM=300,000,如果客户在1分钟内消耗的token数量超过300,000 ,则超过300,000tokens以后的请求都会失败。请求失败错误码为336502,错误描述为Rate limit reached for TPM。
-
服务成功处理1个请求后,当前限流周期内剩余可发送的请求数和服务可消耗的tokens数是多少?
我们在接口返回的Header中新增了2个参数:
-
X-Ratelimit-Remaining-Requests:达到RPM速率限制前,剩余可发送的请求数配额,如果配额用完,将会在0-60s后刷新
-
X-Ratelimit-Remaining-Tokens:达到TPM速率限制前,剩余可消耗的tokens数配额,如果配额用完,将会在0-60s后刷新
举例说明:ERNIE-Bot-Turbo预置服服务TPM=300,000 ,RPM=300,如下图所示:
发送一个请求后,Header参数中X-Ratelimit-Remaining-Requests=299,X-Ratelimit-Remaining-Tokens=299,999 ,即当前限流周期内,还可以处理299个请求和299,999个tokens,如下图所示:
再次发送6个请求,X-Ratelimit-Remaining-Requests=293,X-Ratelimit-Remaining-Tokens=299,672,如下图所示:
-
RPM数值为300,可以1秒直接发送300个请求么?
不可以,建议用户均匀地发送API请求,短时间内发送大量请求,也会导致请求失败:
-
1s内请求量>RPM/60*10,超额部分请求会触发api网关的拦截,请求失败,错误码18,提示QPS超限。
-
10s内请求量>RPM/60*10,超额部分请求会进入到排队队列,排队请求会按照一定周期重试,直到请求成功,或者连续重试3次都失败则返回请求失败,错误码336501。
-
千帆平台有没有具体调用频率限制策略和遇到限制时的一些处理方法?
千帆平台为不同的服务设定了不同的调用频率限制策略,以保障服务稳定性和为开发者提供最佳性能和较优的开发体验。千帆平台提供错误缓解方案展示具体调用频率限制策略和遇到限制时的应对措施。
评论