Gemini Pro 与 GPT-4:视觉功能比较
00 分钟
2024-1-4
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

两篇新论文研究了 Google 和 OpenAI 的人工智能模型的视觉功能。两种模型都相当,但 GPT-4 略有优势。

腾讯优图实验室和香港大学等众多高校和机构的两篇新论文,全面比较了目前最强大的多模态语言模型 Google Gemini Pro 和 OpenAI 的 GPT-4V 的视觉能力( MLLM)。
该研究重点关注每个模型的具体优势和能力,并提供多个维度的详细比较,包括图像识别、图像中的文本识别、图像推理能力、图像中的文本推理能力、图像和文本综合理解、对象定位、时间分析等。视频理解和多语言能力。

GPT-4V 和 Gemini Pro 不相上下

两种模型在基本图像识别任务上表现出相当的性能。您可以从图像中提取文本;这里需要改进,尤其是复杂公式的识别。
在理解图像方面,两个模型都表现出了良好的常识理解能力。然而,Gemini 在模式搜索测试(IQ 测试)中的表现比 GPT-4V 稍差。
notion image
两位模特还表现出了对幽默、情感和审美判断(情商测试)的良好理解。
notion image
在文本理解方面,与 GPT-4 相比,Gemini 有时在复杂的基于表格的推理和数学问题解决任务中表现较差。更大的 Gemini Ultra 变体可能会在这方面提供进一步的进步。
notion image
当谈到答案的详细程度和准确性时,研究团队做出了完全不同的观察:一组将特别详细的答案归因于 Gemini,另一组将其归因于 GPT-4V。双子座会添加相关图像和链接。
在工业应用中,Gemini 在具体代理和 GUI 导航方面优于 GPT-4V。作为回报,据说双子座在多模态推理能力方面具有优势。
两个研究团队都得出结论,Gemini 和 GPT-4V 是强大且令人印象深刻的多模式人工智能模型。综合性能来看,GPT-4V 被评为略强于 Gemini Pro。
Gemini Ultra 和 GPT-4.5 可以实现进一步的改进。
然而,Gemini 和 GPT-4V 在空间视觉理解、字符识别、得出答案时的逻辑推理以及提示的鲁棒性方面仍然存在弱点。因此,通往多模式通用人工智能的道路仍然任重而道远。

总结

  • 两篇新的研究论文检验了 Google Gemini Pro 和 OpenAI 的 GPT-4V 的视觉功能,这两个模型是目前最强大的多模态语言模型。他们表明这两种模型提供了可比的性能。
  • 这些模型已经在图像识别、图像中的文本识别、图像和文本理解、对象定位和多语言能力等领域进行了测试,总体来说GPT-4V稍强一些。
  • 然而,这两种模型在视觉理解、逻辑思维和提示的稳健性方面仍有改进的空间。通往多模式、通用人工智能的道路仍然很长。
 

评论
  • Twikoo