MM1：苹果推出具有高度视觉理解能力的多模态人工智能模型

type

status

date

slug

summary

category

icon

password

URL

通过 MM1，Apple 推出了强大的多模态 AI 模型，凭借智能架构和广泛的训练，该模型可以与 GPT-4V 和 Google Gemini 竞争。详细的论文提供了初步的见解。

Apple 借助 MM1 开发了一种多模式 AI 模型，通过对图像和文本数据进行广泛的训练，该模型在其规模上取得了令人印象深刻的性能。

与 GPT-4V 和 Gemini 一样，MM1 基于大型语言模型 (LLMs) 架构，并接受图像文本对、嵌套图像文本文档和纯文本数据（45% 图像）的混合训练。 -文本对，45% 嵌套图像文本文档，10% 纯文本数据）。

这使得该模型具有与其竞争对手类似的功能，包括图像描述、问题回答，甚至基础数学。

Apple 研究人员详细研究了哪些因素（例如架构组件和训练数据）对 MM1 性能影响最大。

他们发现，高图像分辨率、图像处理部分（所谓的“视觉编码器”）的性能和训练数据量尤为重要，而图像和语音之间的联系则不太重要。

视觉编码器负责将图像信息转换成AI系统可以处理的形式。该编码器的功能越强大，MM1 就能更好地理解和解释图像内容。

训练数据的正确组合也发挥着重要作用：图像-文本对、混合图像-文本数据和纯文本数据对于获得良好结果至关重要，提示中的示例很少。

另一方面，如果 MM1 不得不在提示中没有示例，那么训练数据中的图像文本对对于生成结果至关重要。

图像-文本对（图像-标题对或图像-文本对）是其中每个图像直接与关联文本配对的数据。该文本通常是图像内容的描述或解释。

一个例子是一张狗的照片，标题是“一只棕色的狗在公园里玩球”。这种成对数据通常用于训练自动图像字幕等任务的模型。

另一方面，图像-文本数据（交错的图像-文本）是图像和文本以混合顺序出现的数据，而每个图像不一定直接链接到特定文本。

例如，一篇新闻文章由与同一主题相关但不一定具有 1:1 关系的图像和文本段落混合组成。

此类数据更有可能反映视觉和文本信息在自然环境中经常一起出现的方式。

在本文中，事实证明，两种数据类型（图像文本对和混合图像文本数据）与纯文本数据的混合对于训练多模式人工智能模型是有利的，特别是当涉及到它时只需几个例子（小样本学习）就可以取得良好的结果。

300 亿个参数足以获得最先进的结果

通过扩展至 300 亿个参数并使用专家混合 (MoE) 模型（一种将多个专业 AI 模型协同工作的特殊技术），MM1 取得了引人注目的结果。

它在图像字幕和视觉问题答案生成的少量学习中优于大多数已发布的模型。

MM1在更复杂的场景中也展现出了它的优势。它可以结合多个图像的信息来回答复杂的问题或得出无法从单个图像得出的结论，称为多图像推理。

MM1可以结合多幅图像的内容来得出结论。在示例中，模型检测到桌子上有两瓶啤酒，查看菜单上一瓶啤酒的价格，并得出结论，必须支付两瓶啤酒的价格。 |图片：B麦金齐等人。

经过对选定数据的进一步训练，即所谓的“监督微调”（SFT），MM1 还在 12 项既定的比较测试中取得了有竞争力的结果。

这可能使其成为未来其他领先人工智能系统（例如 GPT-4V 和 Google Gemini）的有力竞争对手。

总结

通过 MM1，Apple 开发了强大的多模态 AI 模型，通过对图像和文本数据进行广泛且非常有针对性的训练，实现了高视觉性能，尽管其尺寸紧凑，但可以在该领域与 GPT-4V 和 Google Gemini 竞争。