logo
9

文件存储不限量!AppBuilder知识库创建功能升级

本月百度智能云千帆AppBuilder从扩展性、开放性、安全性三方面对企业级检索增强生成(RAG)进行了全面升级,解决企业构建知识问答系统中遇到的海量知识检索、自定义策略、企业级安全保障三大难题。

对用户常用的知识库创建功能,这次更新有什么亮点?

✨文件存储和处理不限量
打通百度云产品,支持BES切片托管 、BOS源文件导入
✨策略配置更开放
新增简历、PPT、论文解析模版
多种解析策略可选择;图片、扫描件、文本排版等
新增整文件切分,最高支持15万字;模型自定义切分支持正则表达式
知识增强支持多种策略选择。改善检索召回命中率
✨平台整理性能提升,响应速度更快
✨角色指令效果优化,遵循效果更好

支持BES切片托管

我们来看一下知识库创建页面的新变化:

在选择切片托管资源的部分,可以看到百度 ElasticSearch(BES) 资源选项,不同于原有的AppBuilder 共享切片托管资源,BES使用独享资源,数据隔离,性能更高,更适配大规模的文件检索。
需要注意的是,想要使用这项功能,需要先开通 BES 资源,并创建 ElasticSearch 集群实例。
* 在BES的官网页面可以找到入口,详细操作可以参阅产品文档
产品主页:
https://cloud.baidu.com/product/bes.html

支持BOS源文件导入

在文件源导入时,我们可以选择导入文件类型与导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足各种场景需要。

如果选择导入文本文档数据,AppBuilder支持本地上传与百度对象存储两种导入来源,其中本地上传支持.doc,.txt,.docx,.pdf,.ppt,.pptx 六种格式,且txt 文件不能超过10MB, docx、pdf、doc 文件不能超过50MB且不能超过1000页。

而从百度对象存储(BOS)导入知识库所需数据,则支持大规模数据导入,满足企业安全合规要求。配合 BES 使用将不设置文档上传数量限制。同时也可以选择导入文件夹与导入文件两种方式。BOS提供无限容量,可扩展和可靠的存储服务。

策略配置更开放

上传文档后,可选择自定义配置或模板配置方法。这里我们重点分享下自定义配置方法。
在自定义配置方法中,可以配置解析策略、切片策略、知识增强多个功能以提升知识问答效果。
解析策略默认开启文字提取策略,可选光学字符识别和版面分析策略。
  • 光学字符识别:当您的文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。
  • 版面分析:当您的文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-关联标题及子标题】功能。关闭时,提高文档解析速度。
切片策略:默认切分将根据文档自动设置切分规则。自定义切片则支持配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。
知识增强:
在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。开启后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。
  • 问题生成:默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。
  • 段落概要:根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。
  • 三元组知识抽取:对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。

以上就是知识库创建功能的重点更新,想要查看完整内容请前往产品文档:
https://cloud.baidu.com/doc/AppBuilder/s/Jlt4dqv3h
评论
用户头像