Gemini Pro 与 GPT-4：视觉功能比较

type

status

date

slug

summary

两篇新论文研究了 Google 和 OpenAI 的人工智能模型的视觉功能。两种模型都相当，但 GPT-4 略有优势。

腾讯优图实验室和香港大学等众多高校和机构的两篇新论文，全面比较了目前最强大的多模态语言模型 Google Gemini Pro 和 OpenAI 的 GPT-4V 的视觉能力（ MLLM）。

该研究重点关注每个模型的具体优势和能力，并提供多个维度的详细比较，包括图像识别、图像中的文本识别、图像推理能力、图像中的文本推理能力、图像和文本综合理解、对象定位、时间分析等。视频理解和多语言能力。

两种模型在基本图像识别任务上表现出相当的性能。您可以从图像中提取文本；这里需要改进，尤其是复杂公式的识别。

在理解图像方面，两个模型都表现出了良好的常识理解能力。然而，Gemini 在模式搜索测试（IQ 测试）中的表现比 GPT-4V 稍差。

两位模特还表现出了对幽默、情感和审美判断（情商测试）的良好理解。

在文本理解方面，与 GPT-4 相比，Gemini 有时在复杂的基于表格的推理和数学问题解决任务中表现较差。更大的 Gemini Ultra 变体可能会在这方面提供进一步的进步。

当谈到答案的详细程度和准确性时，研究团队做出了完全不同的观察：一组将特别详细的答案归因于 Gemini，另一组将其归因于 GPT-4V。双子座会添加相关图像和链接。

在工业应用中，Gemini 在具体代理和 GUI 导航方面优于 GPT-4V。作为回报，据说双子座在多模态推理能力方面具有优势。

两个研究团队都得出结论，Gemini 和 GPT-4V 是强大且令人印象深刻的多模式人工智能模型。综合性能来看，GPT-4V 被评为略强于 Gemini Pro。

Gemini Ultra 和 GPT-4.5 可以实现进一步的改进。

然而，Gemini 和 GPT-4V 在空间视觉理解、字符识别、得出答案时的逻辑推理以及提示的鲁棒性方面仍然存在弱点。因此，通往多模式通用人工智能的道路仍然任重而道远。

两篇新的研究论文检验了 Google Gemini Pro 和 OpenAI 的 GPT-4V 的视觉功能，这两个模型是目前最强大的多模态语言模型。他们表明这两种模型提供了可比的性能。