Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入-热讯月报网

您当前的位置：首页 > 财经 > 详情

Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入

2023-08-25 14:29:06 来源：站长之家

(资料图片)

编程客栈（）8月23日消息:最近， Hugging Face 推出了一个名为 IDEFICS 的开源多模态 AI 模型，它可以接受图像和文本作为输入，并生成连贯的文本输出。

IDEFICS 是一个强大的视觉语言模型，拥有高达800亿的参数量，功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。

IDEFICS 基于 DeepMind 开发的 Flamingo 模型，后者是一种目前最先进的视觉语言模型，但尚未对外开源。相比之下，IDEFICS 作为 Flamingo 的开源实现版本，其测试结果显示在各类图像理解任务上其表现与 Flamingo 相当。

为训练 IDEFICS，Hugging Face 利用了多种公开的数据集，还额外构建了一个包含1.4亿张图像的大规模图像-编程客栈文本数据集。

IDEFICS 有两个版本，包括90亿参数的基础版和800亿参数的大模型版，可以处理不同的应用场景。

IDEFICS 的推出为研究人员和开发者提供了js一个强大的开源视觉语言编程模型，相比专利系统如 GPT-3，它提供了更大的灵活性。同js时，IDEFICS 也显示出生成式模型处理多模态输入的潜力。

未来如果能进一步提升多模态理解和生成能力，将可以大幅推动诸如机器人、自动驾驶等多模态 AI 应用的发展。

项目网址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

标签：

落凡依恋(关于落凡依恋简述)

综合

美银证券发布研究报告称，重申网易-S(09999)“买入”评级，第二季利润

中南文化00244508月24日在投资者关系平台上答复了投资者关心的问题投资