logo
3

Prompt 技巧宝典(六):自动提示工程师等进阶技巧

Automatic Reasoning and Tool-use (ART)

ART框架本质是使用CoT提示+一些工具来(这些工具可能包括:搜索、Pyhton、CodeX等),并增加了人工干预的环节,来增强LLM最终应用的能力。
该框架的核心,我认为是利用“冻结”的概念,其大致逻辑如下:
在这种循环的机制下,随着任务库和工具使用方法不断积累,其结果和性能逐渐提高。

自动提示工程师(APE)

这是一个关于提示词工程师的工作流程。
该工作流将LLM分别作为推理、评分、采样。最终选择最优的提示词模版。
在提示词工程场景中,同一个问题会有多个Prompt,而APE框架,就是自动选择最优Prompt的框架。其特点是推理、评分、采样全部基于LLM。

Active-Prompt

在链式思考(CoT)提示中,我们能够清晰的理解到,CoT提示方式中有一个缺点:依赖人工的标注。即在构建Prompt时,需要先构建一些示例,以便提高LLM的推理能力或者效果。
如何更合理的构建这些示例、或者进行QA对的标注,在https://arxiv.org/pdf/2302.12246.pdf 给出了一种方法,名为:Active-Prompt
图片看起来比较复杂,我们只需要理解其核心思想:
第一步:寻找不确定性的Q。数据集中的所有的Q,都请求5次LLM,通过一定算法来计算每个Q的不确定性率(你也可以理解为不稳定率)。
我们知道每个问题重复向LLM尽情请求,得到的结果可能是稳定的也可能是不稳定的,第一步就是要找到数据集中的Q不稳定率进行计算,并排名。
第二步:将不稳定的Q排名高的进行人工标注
第三步:将人工标注的Q做为COT提示中的示例,构建完整Prompt
主要原理是,CoT提示词中的示例,如果是LLM本身约不稳定的场景进行人工标注,越能提高模型的推理性能。
次轮论文的用法将重点适用于微调场景,后续在微调或者模型调优训练环节,可重点参考此思路

方向性刺激提示

这种提示方法比较简单,即在内容总结或者内容创作方向上,在原有的Prompt中增加方向性的刺激。如下:
普通提示词:
方向性刺激提示词:
该方法主要应用在SFT环节,在人工标注环节时可增加方向性刺激的关键词。

多模态思维链提示方法

论文:https://arxiv.org/pdf/2302.14045.pdf 这篇论文将LLM提升至MLLM,主要核心是:语言并不是你与大语言模型交互的唯一选择。
可以使用图片、语音等任何其它方式。
此论文的方法,主要是将图片、语音等其他模态进行向量化。
注意:这里提到的是将图片等内容进行向量化,而不是使用OCR等提取图片信息。
以千帆的Embedding接口为例,如果将图片向量化,必须要有个中间步骤。以下几种方案,仅供参考。
  1. 图像描述(Image Captioning)
    • 使用预训练的图像描述模型,例如Show and Tell、Show, Attend and Tell等,将图片转化为自然语言描述。
    • 将这些自然语言描述传递给Embedding-V1接口,以获取对应的文本向量。
  1. 图像标签化(Image Tagging or Classification)
    • 使用图像分类模型,如预训练的ResNet、VGG等,为图片分配一组标签或类别。
    • 将这些标签或类别名称串联成一个文本串,然后输入到Embedding-V1接口中。
  1. 对象检测
    • 使用如YOLO、SSD、Faster R-CNN等预训练的对象检测模型,在图片中识别并标注对象。
    • 将这些对象的名称或描述串联起来,形成一个文本串,然后传递给Embedding-V1接口。
  1. 自定义训练
    • 如果有大量的标注数据,例如每张图片对应一个描述,您可以同时训练图像和文本模型,使它们在相同的嵌入空间中有相似的表示。
评论
用户头像