logo

正式落地!百度智能云双模式调度方案创造算力最大值!

在人工智能浪潮席卷千行百业的今天,算力已成为驱动创新的核心引擎。近期,百度智能云混合云联合昆仑芯、HAMi(密瓜智能发起并主导的CNCF开源项目),正式推出了基于昆仑芯的XPU/vXPU双模式算力调度方案,能够为智能客服、营销辅助等十余类AI业务提供兼具稳定性与灵活性的算力支撑。借助该方案,企业可在同一集群内灵活调用昆仑芯的整卡XPU与虚拟化vXPU资源,让国产算力既高效匹配业务需求,又实现资源的最大化利用。目前该方案已在某金融客户的昆仑芯集群中落地。
XPU/vXPU双模式调度方案,把集群中的昆仑芯算力用透
百度智能云联合HAMi,基于昆仑芯构建了「XPU整卡+vXPU虚拟化」双模式资源调度体系:2
  • XPU整卡模式通过拓扑寻优调度与健康度评估,实现「多卡单任务」的最优资源调度,保障大规模训练性能和稳定性,并避免资源碎片化;
  • vXPU虚拟化模式以多规格切分支持「单卡多任务」,最大化资源利用率,灵活适配推理、开发等轻量化场景。
  • 双模式协同发力,让昆仑芯的每一份算力「算尽其用」,为各类AI业务提供高效算力支撑。
XPU整卡模式:拓扑寻优调度+集群健康度评估,保障大规模训练性能与集群稳定
在多卡训练等通信性能敏感场景中,调度策略直接决定集群长期可用性与性能稳定性。基于昆仑芯的物理拓扑特性,方案通过两层逻辑保障整卡模式的「高性能和高稳定性」。
其一,系统自动识别昆仑芯服务器「左右侧翼」物理分区,优先在单侧翼内调度资源,减少跨侧翼通信开销的同时,避免资源零散占用。
其二,当多个节点都能满足需求时,系统会评估调度前后对节点整体结构的影响,优先选择能保持或改善拓扑规整度的节点,留存更多完整拓扑单元,降低后续调度失败或回填导致的性能波动。
凭借「节点内拓扑寻优调度+集群内健康度评估」,运维团队不再需要频繁人工干预去「手动拼卡」,大模型训练可获得稳定通信性能,集群资源利用更紧凑。
vXPU虚拟化模式:多粒度切分+显存自动对齐,用透每一分算力,简化管理难度
针对推理、开发测试、模型验证等轻量化任务的细粒度算力需求,vXPU虚拟化模式为昆仑芯打造了「算力精准切分+便捷管理」的解决方案。
该模式支持多任务共享单张昆仑芯显卡,提供1/4卡(24GB显存)、1/2卡(48GB显存)两种切分规格。实际使用中,用户仅需声明所需显存,系统便会自动向上匹配最优切分规格——如申请20GB显存时,系统自动分配24GB规格,无需用户手动换算,大幅降低操作成本。
同时,为避免实例间干扰,方案引入「同规格共享」机制——同一物理卡仅允许相同规格的虚拟实例共享,进一步简化了资源隔离与管理复杂度。
UUID精准控卡:自动化打底,人工补位,特殊场景不「卡壳」
依托整卡模式的拓扑寻优调度、vXPU虚拟化模式的显存自动对齐等自动化能力,日常算力调度已实现少干预甚至无干预。针对灰度测试、硬件问题复现等特殊场景,方案预留「人工调节通道」——运维人员只需指定物理卡UUID,即可直接选定或排除特定卡片。比如灰度发布新模型时,无需调动全量资源,指定部分卡片即可完成测试验证;硬件故障复现时,也能精准定位问题卡片进行调试,无需整机下线。
通过系统自动化调度与人工手动调节的结合,面对大模型训练、推理与开发等复杂场景,既能保障日常调度效率,又具备「因地制宜」的算力管理灵活性,轻松化解运维难题。
百度智能云,让每一份算力创造价值
XPU/vXPU双模式协同调度方案在金融行业的落地,是百度智能云混合云联合HAMi在国产AI硬件调度领域的重要实践——既验证了「场景驱动调度策略」的技术创新价值,也展现了开源生态与企业服务结合的落地能力。借助这套方案,企业能够在一套集群内,以最高效、最经济的方式,支撑起千行百业AI应用的全生命周期,百度智能云还将不断为企业带来创新解决方案,让每一份算力都能够创造价值。
评论
用户头像