奥运竞技场:评估超级智能 AI 的多学科认知推理能力

引言

近年来,随着大型语言模型(LLM)和大型多模态模型(LMM)的飞速发展,人工智能(AI)在解决问题和科学发现(即 AI4Science)方面的认知推理能力逐渐显现,展现出与人类智慧相媲美的潜力。为了全面评估当前模型在认知推理能力方面的表现,我们推出了“奥运竞技场” (OlympicArena) 基准测试,它包含了 11,163 个双语问题,涵盖了文本和文本-图像混合两种模式。这些挑战涵盖了七个领域和 62 个国际奥林匹克竞赛,并经过严格审查以确保数据泄露问题。我们认为,奥林匹克竞赛中的问题是评估 AI 认知推理能力的理想选择,因为它们具有复杂性和跨学科性,这对解决复杂的科学挑战和促进发现至关重要。

除了使用仅答案的标准评估不同学科的表现外,我们还从多个角度进行了详细的实验和分析。我们深入研究了模型的认知推理能力、它们在不同模式下的表现,以及它们在过程级评估中的结果,这对于需要复杂推理和长篇解决方案的任务至关重要。我们广泛的评估结果表明,即使是像 GPT-4o 这样先进的模型,其总体准确率也仅为 39.97%(数学为 28.67%,物理为 29.71%),这说明了当前 AI 在复杂推理和多模态整合方面的局限性。

通过“奥运竞技场”,我们旨在推动 AI 向超级智能发展,使其能够应对科学及其他领域中更复杂的挑战。我们还提供了一套全面的资源来支持 AI 研究,包括基准数据集、开源标注平台、详细的评估工具以及具有自动提交功能的排行榜。

为什么选择奥林匹克竞赛问题?

奥林匹克竞赛问题之所以成为评估 AI 认知推理能力的理想选择,主要有以下几个原因:

  • 复杂性: 这些问题通常涉及多个学科的概念和原理,需要模型能够进行综合性的分析和推理。
  • 跨学科性: 许多问题需要将不同学科的知识整合在一起,例如物理学和数学的结合,这考验了模型的知识迁移能力。
  • 创造性: 这些问题往往需要模型能够进行抽象思考和创造性解决问题,这与人类的认知推理能力密切相关。

“奥运竞技场” 的设计

“奥运竞技场” 基准测试具有以下特点:

  • 多学科: 涵盖数学、物理、化学、生物、地理、天文学和计算机科学七个学科,共计 34 个专业分支。
  • 多模态: 包括文本和文本-图像混合两种模式,更接近现实世界的应用场景。
  • 双语: 提供英语和中文版本,方便全球范围内的研究人员使用。
  • 过程级评估: 除了评估最终答案的正确性,还评估模型推理过程的合理性和有效性,更全面地评估模型的认知推理能力。

实验结果

我们对各种 LLM 和 LMM 进行了实验,包括 GPT-4o、LLaVa-NeXT 等模型。实验结果表明:

  • 当前 AI 模型在解决复杂的多学科问题方面仍然存在局限性。 即使是最先进的模型 GPT-4o,其总体准确率也仅为 39.97%,而其他开源模型的准确率甚至低于 20%。
  • LMM 在处理复杂的多学科问题时,在利用视觉信息方面表现不佳。 许多 LMM 在处理图像时没有表现出比文本模式更好的性能,甚至一些模型的性能还有所下降。
  • 过程级评估结果表明,大多数模型能够正确执行一些推理步骤,即使最终答案是错误的。 这表明模型在认知推理方面具有很大的潜力。

未来展望

“奥运竞技场” 基准测试为评估 AI 的认知推理能力提供了一个新的平台,它将推动 AI 在科学和工程领域的发展。未来,我们希望能够:

  • 开发更强大的 AI 模型,能够更好地解决复杂的多学科问题。
  • 改进 LMM 的视觉信息处理能力,使其能够有效地利用视觉信息进行推理。
  • 探索更有效的过程级评估方法,更准确地评估模型的推理过程。

参考文献

[1] Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu. OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI. arXiv preprint arXiv:2406.12753, 2024.

[2] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[3] GPT-4v(ision) system card. 2023. URL https://api.semanticscholar.org/CorpusID:332263218031.


Q: 这篇论文试图解决什么问题?

A: 这篇论文介绍了一个名为”OlympicArena”的基准测试,旨在全面评估和推进人工智能(AI)在认知推理能力方面的表现。具体来说,它试图解决的问题包括:

  1. 现有AI模型在复杂推理任务上的限制:尽管大型语言模型(LLMs)和大型多模态模型(LMMs)在某些领域表现出色,但在解决跨学科、需要高级认知推理能力的复杂问题上仍有局限。
  2. 缺乏全面的评估机制:现有的基准测试多关注于知识密集型任务或简单的概念应用,缺乏对AI模型在更高层次认知推理能力上的系统和细粒度评估。
  3. 多学科和多模态挑战的缺乏:目前的基准测试主要集中在单一学科或文本模态,而现实世界的问题往往涉及多个领域,并且可能需要处理文本和图像等多种模态的信息。
  4. 数据泄露问题的检测和解决:随着预训练语料库规模的增加,检测潜在的基准泄露成为一个重要问题,这可能会影响模型评估的准确性和可靠性。
  5. 推动AI向超智能(superintelligence)发展:通过构建一个具有挑战性的基准测试,激励AI研究社区开发能够处理更复杂科学挑战的模型,并在科学和其他领域实现应用。

为了解决这些问题,论文提出了”OlympicArena”,这是一个包含11,163个双语问题的综合基准测试,覆盖了七个领域和62个国际奥林匹克竞赛级别的挑战。该基准测试不仅关注答案的正确性,还包括对AI模型解题过程的详细评估,以深入理解其认知推理的深度和可靠性。

Q: 有哪些相关研究?

A: 论文中提到了多个与AI基准测试和认知推理相关的研究工作。以下是一些主要的相关研究:

  1. 大型语言模型(LLMs)和大型多模态模型(LMMs):这些模型在人工智能的发展历程中具有里程碑意义,它们在处理复杂任务时展现出了显着的认知推理能力。
  2. 国际数学奥林匹克(IMO):论文中提到了使用AI代理解决类似于国际数学奥林匹克中出现的复杂挑战。
  3. AI4Science:指利用AI推动科学发现的研究领域,论文中提到了AI在这一领域的应用。
  4. 现有基准测试:如MMLU、AGIEval、C-Eval和CMMLU等,这些基准测试推动了语言模型在多学科、多语言和知识密集型任务上的能力评估。
  5. 特定学科的基准测试:例如GSM8K(针对小学数学推理问题)、MATH(引入高中级数学竞赛任务)等。
  6. 多学科大学级别科目和多模态任务的基准测试:如JEEBench、SciBench、GPQA和MMMU等,这些基准测试扩展了评估范围,包括了多学科大学级别的科目。
  7. 国际奥林匹克竞赛问题:论文中提到了使用国际奥林匹克竞赛级别的问题来挑战AI系统。
  8. 算法挑战:涉及使用算法解决复杂问题的挑战,如论文中提到的一些相关工作。
  9. 过程级评估:一些研究工作开始关注模型的中间推理步骤,例如使用过程监督来训练更好的奖励模型。
  10. 数据泄露检测:随着预训练语料库规模的增加,检测潜在的基准泄露成为一个重要问题,论文中提到了一些相关工作。

这些相关研究为构建”OlympicArena”基准测试提供了理论和实践基础,并帮助确定了评估AI认知推理能力的需求和方法。论文通过比较和分析这些相关工作,展示了”OlympicArena”在评估AI能力方面的创新和全面性。

Q: 论文如何解决这个问题?

A: 论文通过以下几个关键步骤来解决AI在复杂认知推理任务上的评估问题:

  1. 创建综合基准测试:“OlympicArena”是一个包含11,163个双语问题的综合基准测试,覆盖了数学、物理、化学、生物学、地理、天文学和计算机科学等七个领域的62个不同的奥林匹克级别的竞赛。
  2. 多模态和多学科问题:基准测试包括文本和图像混合的问题,以模拟现实世界中的复杂场景,并要求AI模型能够处理和推理跨学科的问题。
  3. 细粒度评估机制:除了传统的答案正确性评估(答案级评估),论文还引入了过程级评估,以深入分析AI模型的推理过程和步骤,从而更全面地理解其认知推理能力。
  4. 数据泄露检测:为了确保评估的有效性和公正性,论文进行了数据泄露检测实验,以验证基准测试的难度和挑战性。
  5. 实验和分析:论文对现有的顶级语言模型(包括专有模型和开源模型)进行了一系列的实验,从答案级和过程级两个角度进行了全面的评估。
  6. 资源提供:为了支持AI研究,论文提供了一套全面的资源,包括基准数据集、开源注释平台、详细的评估工具和具有自动提交功能的排行榜。
  7. 认知推理能力的分类:论文将认知推理能力细分为逻辑推理和视觉推理两大类,进一步将它们分为多个子类别,以便更细致地评估AI模型在不同认知推理方面的能力。
  8. 错误分析和数据泄露检测:通过分析模型的错误和进行数据泄露检测,论文揭示了当前AI模型在复杂推理任务上的局限性,并为改进训练策略和提升认知推理能力提供了见解。

通过这些方法,论文不仅提出了一个全面的评估框架,而且通过实验结果揭示了即使是最先进的模型(如GPT-4o)在处理复杂、多学科问题时也存在显着的局限性,从而为AI的进一步发展提供了明确的方向和目标。

Q: 论文做了哪些实验?

A: 论文中进行了一系列实验来评估不同大型语言模型(LLMs)和大型多模态模型(LMMs)在“OlympicArena”基准测试上的表现。以下是实验的主要方面:

  1. 实验设置:设计了三种不同的设置来评估模型:多模态(interleaved text and images)、图像-标题(image-caption)和纯文本(text-only)。
  2. 模型选择:评估了包括专有模型(如GPT-4o)和开源模型(如LLaVa-NeXT)在内的多种LLMs和LMMs。
  3. 零样本提示(Zero-shot Prompts):为了减少偏差并公平评估模型,使用了零样本提示,并针对每种答案类型定制了输出格式。
  4. 答案级评估(Answer-level Evaluation):结合了基于规则的方法和基于模型的方法来评估各种类型的问题。对于固定答案的问题,使用规则匹配;对于编程任务,使用pass@k指标;对于难以用规则匹配评估的问题,使用GPT-4V作为评估器。
  5. 过程级评估(Process-level Evaluation):对模型生成的解决方案进行结构化步骤格式的转换,并使用GPT-4V对每个步骤的正确性进行评分。
  6. 主要结果:展示了不同模型在“OlympicArena”上的表现,包括整体准确率和各个学科的准确率。
  7. 细粒度分析(Fine-grained Analysis):基于不同模态和推理能力对实验结果进行了更深入的评估和分析。
  8. 过程级评估结果分析:通过比较过程级评估和答案级评估的一致性,以及分析错误步骤的位置分布,来洞察模型在认知推理上的潜力和挑战。
  9. 错误分析:通过人工评估员对GPT-4V的不正确响应进行分析和注释,以识别错误的原因。
  10. 数据泄露检测:使用N-gram预测准确率来检测预训练语料库中可能的基准泄露,并分析了不同模型在泄露实例上的表现。

这些实验提供了对当前AI模型在复杂认知推理任务上能力的全面评估,并揭示了它们在处理多学科、多模态问题时的局限性和潜力。

Q: 有什么可以进一步探索的点?

A: 尽管”OlympicArena”基准测试为评估AI的认知推理能力提供了一个全面的平台,但论文也指出了一些局限性,并提出了未来工作的几个方向,这些可以作为进一步探索的点:

  1. 改进基准测试:通过社区反馈不断优化和改进基准测试,减少其中的噪声问题。
  2. 年度更新:定期更新基准测试版本,以应对数据泄露问题,并确保评估的公正性和有效性。
  3. 扩展评估范围:目前基准测试主要集中在问题解决能力上,未来可以扩展到评估AI在更广泛的复杂任务和实际应用中的表现,如AI4Science和AI4Engineering。
  4. 增强模型的多模态能力:研究和开发能够更好地处理和集成多模态信息(文本、图像等)的模型。
  5. 提升过程级评估:进一步研究和改进过程级评估方法,以便更准确地评估模型的推理过程和步骤。
  6. 深入分析错误类型:通过对模型错误进行更深入的分类和分析,识别当前模型在认知推理上的薄弱环节。
  7. 开发新的评估工具和方法:为了更全面地评估AI的能力,可以开发新的工具和方法,包括更先进的数据泄露检测工具。
  8. 探索模型的可解释性:提高模型的可解释性,以便更好地理解其决策过程和推理逻辑。
  9. 优化模型训练策略:基于基准测试的发现,探索新的模型训练策略,以提高模型在复杂推理任务上的性能。
  10. 促进跨学科应用:研究如何将AI的认知推理能力应用于跨学科领域,解决现实世界中的复杂问题。
  11. 伦理和社会影响:随着AI能力的提升,需要持续关注其潜在的伦理和社会影响,并进行相应的研究和讨论。
  12. 模型鲁棒性:研究如何提高模型在面对错误或不完整信息时的鲁棒性。

这些探索点不仅可以推动AI技术的发展,还有助于确保AI技术的负责任使用和对社会的积极贡献。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了”OlympicArena”,一个旨在全面评估和提升人工智能(AI)在认知推理能力方面的基准测试平台。以下是论文的主要内容总结:

  1. 背景与动机:随着大型语言模型(LLMs)和大型多模态模型(LMMs)的发展,AI在认知推理方面展现出巨大潜力。然而,现有的基准测试多关注于知识密集型任务,缺乏对高级认知推理能力的评估。
  2. OlympicArena基准测试:为了填补这一空白,作者提出了”OlympicArena”,一个包含11,163个双语问题的综合基准测试,覆盖数学、物理、化学、生物学、地理、天文学和计算机科学等七个领域。
  3. 多模态和多学科问题:基准测试包括文本和图像混合的问题,以模拟现实世界的复杂性,并要求AI模型能够处理跨学科的问题。
  4. 细粒度评估:除了答案正确性的评估,还包括过程级评估,以深入分析AI模型的推理过程。
  5. 实验与分析:论文对现有的顶级语言模型进行了实验,包括专有模型(如GPT-4o)和开源模型(如LLaVa-NeXT)。实验结果表明,即使是最先进的模型,在处理复杂问题时也存在显着的局限性。
  6. 认知推理能力的分类:将认知推理能力细分为逻辑推理和视觉推理两大类,并进一步细分为多个子类别,以便更细致地评估AI模型的能力。
  7. 错误分析与数据泄露检测:通过分析模型的错误和进行数据泄露检测,揭示了AI模型在认知推理任务上的不足,并为改进模型提供了见解。
  8. 资源提供:为了支持AI研究,论文提供了基准数据集、开源注释平台、评估工具和具有自动提交功能的排行榜。
  9. 未来工作:论文提出了未来工作的方向,包括改进基准测试、扩展评估范围、增强模型的多模态能力等。
  10. 社会影响考量:讨论了随着AI能力提升可能带来的伦理和道德风险,强调了进行集体监管的必要性。

“OlympicArena”基准测试的推出,旨在推动AI向超智能发展,并在科学和其他领域实现更广泛的应用。论文通过一系列实验和分析,展示了AI在复杂认知推理任务上的现状和挑战,并为未来的研究提供了明确的方向。

发表评论