logo

Fuyu-8B

Adept AI(开源)图像理解
前往使用

Fuyu-8B

1. 模型介绍

Fuyu-8B是由Adept AI训练的多模态图像理解模型,可以支持多样的图像分辨率,回答图形图表有关问题。模型在视觉问答和图像描述等任务上表现良好。了解详情>>

2. 应用场景

该模型仅用于研究目的。 由于这是源模型版本,因此没有添加进一步的微调、后处理或采样策略来控制不需要的输出。您应该期望必须根据您的用例微调模型。

可能的研究领域和任务包括

  • 在计算机控制或数字代理中的应用。
  • 多模态模型综合研究。

3. 评测效果

Eval TaskFuyu-8BFuyu-MediumLLaVA 1.5 (13.5B)QWEN-VL (10B)PALI-X (55B)PALM-e-12BPALM-e-562B
VQAv274.277.48079.586.176.280.0
OKVQA60.663.1n/a58.666.155.566.1
COCO Captions141138n/an/a149135138
AI2D64.573.7n/a62.381.2n/an/a

4. 技术亮点

  • Fuyu-8B的架构和训练过程要精简得多,使得它更容易理解、扩展和部署服务。
  • Fuyu-8B专为数字代理而设计,因此它可以支持任意图像分辨率、回答有关图形和图表的问题、回答基于 UI 的问题以及在屏幕图像上进行细粒度落地。
  • 速度很快 - 可以在不到 100 毫秒的时间内获得大图像的响应。
  • 针对我们的试验用例进行了调整,但它仍然能在标准图像理解基准(例如视觉问答和自然图像字幕)上表现良好。

5. 相关资源

免责声明

Fuyu-8B模型来源于第三方,百度智能云千帆大模型平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。 具体请查看基础模型的开源协议 CC-BY-NC-4.0及模型开源页面展示信息等。 如您发现模型/数据集/文件等有任何问题,请及时联系我们处理。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。