logo

百度千帆·大模型服务及Agent开发平台实践——多模态RAG:图文问答助手

本文介绍了如何利用知识库的多模态信息处理,整合多模态信息并实现跨模态内容检索,从而生成更准确、更丰富的回答。文章以百度千帆问答助手为例,演示了多模态RAG问答助手的实现过程,并与传统基于OCR后再进行RAG的问答方法进行了对比。

能力介绍

多模态检索增强生成(Multimodal Retrieval-Augmented Generation)是一种新兴的架构范式,使AI模型能够综合利用文本、图像、视频等多种类型的数据进行交互与推理。 通过整合图像和音频等多模态知识源,扩展了传统RAG框架,为内容生成提供更加丰富的上下文信息。这种整合不仅提高了生成输出的精确度,还利用多模态线索增强了MLLMs(Multi-modal Large Language Models)的推理能力。提高了视觉叙事的连贯性,并确保多模态摘要内容与事实保持一致。 处理流程:
  • 离线处理阶段:系统首先对多模态文档进行分割,随后通过多模态Embedding技术将不同模态(如文本、图像等)映射到统一的语义空间中,实现跨模态的语义对齐。
  • 在线检索阶段:借助多模态Embedding模型,将用户查询嵌入为向量表示,从而召回与之最相关的文档片段,支持图文混合检索。系统还支持自定义检索策略,进一步提升了上下文筛选的准确性与可靠性。

功能优势

能够整合图像、音频、结构化数据等多种模态的信息,极大地丰富了上下文来源。 利用跨模态线索进行联合推理(例如,根据图片内容回答问题,或根据文本来解释图表),从而生成更准确、更丰富的回答。
行业
场景
传统 RAG 症结
多模态 RAG 优势
政务
面向执法人员的智能问询助理。
处理证据图像有限,证据解读能力弱。
输入现场照片、证据截屏、文档扫描等,多模态 RAG 可以召回相关案件中的相似图像证据与文字说明,帮助生成“问询方案”或“证据比对报告”,支持图文并茂的案情推理与查证。
制造
面向经销商的咨询助手。
缺乏视觉参考,无法解决因语义差异导致的信息匹配问题,文字描述与实际屏幕或产品照片可能差别大,检索结果不准确。
输入产品照片、设备状态截屏、文档样表等,多模态 RAG 能从历史案件中检索类似产品问题的图文解决方案,生成带图片解释的操作步骤或维修建议。
制造
面向研发人员的咨询助手。
缺少图像理解能力,研发问题常涉及设计图、原理图、错误截图等,仅靠文本检索会丢失关键信息。传统 RAG 无法检索或理解图中结构、布局及标注。
输入上传设计图、流程图、故障截图、接口文档等多种形式材料,多模态 RAG 能从历史案件资料中召回信息,为当前研发问题生成问询方案或调试建议。

最佳实践:百度千帆平台知识问答助手

应用场景
为什么传统RAG解决不了?
多模态RAG的优势
用户想快速了解百度千帆 的平台功能与框架。知识库中包含 百度千帆 平台介绍、RAG 概述等信息,其中既有文字说明,也有架构框架图、功能示意图等图片资料。部分信息以流程图说明,无文字描述。
需要解答的问题示例:
说明知识库流程图里包含哪些步骤,并解释它们的执行顺序。
附件: 知识库文档
  • 只能看到字,看不懂图:OCR 只能提取图片文字,但无法理解图形元素、布局和逻辑关系,丢失关键语义。
  • 回答缺乏直观性:用户提问往往涉及整体结构,例如“某模块在框架图位置、与谁相连”,传统 RAG 只能返回文字。
  • 上下文割裂:文字说明 + 配图常常组合出现,传统 RAG 不能融合,容易导致遗漏或混淆。
  • 读懂图 + 文:能识别文字,还能理解图像语义、关系和结构,如模块划分、箭头指向、组件关联。
  • 答案更直观:检索结合图文,回答时输出图文混排,让说明和图示对应。
  • 上下文融合:文字说明与图表对齐,避免割裂,保证答案完整连贯。

操作步骤

Step 1: 上传多模态数据文档

  • 创建知识库 - 配置选择 中,勾选 文档图片解析,并选择 图片理解(VLM)策略。 完整创建知识库流程可查看创建知识库
  • 图片文字识别(OCR)侧重于把图中的字符转为文本,但无法理解图表、示意或场景语义;而图片理解(VLM)不仅能识别文字,还能理解图像整体语义、结构关系并结合语言推理。因此推荐选择图片理解(VLM)。

Step 2: 命中测试

  • 知识库创建后,您可在命中测试页面输入查询Query(图搜图功能敬请期待)。系统将返回与之相关的知识库图片或图文混排内容。展示效果如下:
多模态 RAG 示例
传统 RAG 示例

效果对比
  • 传统 RAG:召回的文本切片主要是通用段落(如场景举例、RAG 概述等),虽然也带了图,但是没有精准定位。
  • 多模态 RAG:检索召回的图片直接对应提问“包含哪些步骤、执行顺序”。定位更精准,节约了输入大模型的消耗tokens。

Step 3: 智能体调用

您可在以下四类 Agent 中调用已创建的多模态知识库,实现图文混排的智能回答或内容生成:
Agent 类型
多模态 RAG 示例
传统 RAG 示例
效果
自主规划 Agent
自主规划 Agent 调用多模态 RAG 时,既能检索文字,又能同时召回并理解文档中的图片内容,并正确理解其中的结构和位置关系。

传统 RAG 只能提取文字片段,容易误判模块所在位置(如将粗排与重排序错放到「知识解析 & 索引构建模块」),无法理解图片信息,容易遗漏关键信息。

完整流程参考自主规划Agent
工作流 Agent
大模型节点引用 content 字段后,可输出图文混排内容。

- 在工作流 Agent 下,传统 RAG 没有对图片进行理解,输出了其他相关信息;而 多模态 RAG 能理解图片的结构和含义,能更好地支持需要直观理解的任务。

完整流程参考工作流Agent
多智能体协同 Agent
多智能体协同 Agent 通过调用自主规划 Agent,实现图文混排内容输出。

多模态 RAG:能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性
传统 RAG:只能解析文字,无法理解结构,容易错漏关键信息

完整流程参考多智能体协同Agent
交互式写作 Agent
交互式写作场景下,多模态 RAG 能够输出框架图的正确分析,对图像中的各个模块全面讲解,显著增强召回效果和直观性。

传统 RAG 无法调用或理解图像内部结构,容易遗漏关键信息。

完整流程参考交互式写作Agent

  • 使用多模态RAG进行知识库问答,能够更清晰地描述流程图中的处理过程,而在传统OCR后进行检索问答的方法中,这部分内容往往容易出现事实性错误。
  • 例如,百度千帆的知识增强主要体现在知识解析与索引构建阶段,而非问答生成阶段。多模态RAG很好的进行理解,但是传统RAG回答有误。

快捷导航
百度千帆·大模型服务与Agent开发平台:https://console.bce.baidu.com/qianfan/overview
百度千帆·大模型服务与Agent开发平台产品文档:https://cloud.baidu.com/doc/qianfan/s/rmh8khvwu
百度千帆·大模型服务与Agent开发平台模型服务:https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list
百度千帆·大模型服务与Agent开发平台组件广场:https://console.bce.baidu.com/qianfan/tools/componentCenter
百度千帆·大模型服务与Agent开发平台应用开发:https://console.bce.baidu.com/qianfan/studio/appCenter
评论
用户头像