模型介绍Fuyu-8B是由Adept AI训练的多模态图像理解模型,可以支持多样的图像分辨率,回答图形图表有关问题。模型在视觉问答和图像描述等任务上表现良好。了解详情>>
该模型仅用于研究目的。 由于这是源模型版本,因此没有添加进一步的微调、后处理或采样策略来控制不需要的输出。您应该期望必须根据您的用例微调模型。
可能的研究领域和任务包括
| Eval Task | Fuyu-8B | Fuyu-Medium | LLaVA 1.5 (13.5B) | QWEN-VL (10B) | PALI-X (55B) | PALM-e-12B | PALM-e-562B |
|---|---|---|---|---|---|---|---|
| VQAv2 | 74.2 | 77.4 | 80 | 79.5 | 86.1 | 76.2 | 80.0 |
| OKVQA | 60.6 | 63.1 | n/a | 58.6 | 66.1 | 55.5 | 66.1 |
| COCO Captions | 141 | 138 | n/a | n/a | 149 | 135 | 138 |
| AI2D | 64.5 | 73.7 | n/a | 62.3 | 81.2 | n/a | n/a |
Fuyu-8B模型来源于第三方,百度智能云千帆大模型平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。 具体请查看基础模型的开源协议 CC-BY-NC-4.0及模型开源页面展示信息等。 如您发现模型/数据集/文件等有任何问题,请及时联系我们处理。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。