最新AI大模型咨询与技术解读——来自DataLearnerAI

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16 阅读 750

AIAgent评测/TerminalBench/大模型评测/评测基准

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad ，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学的“窄”方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

2025/07/19 18:22:05 阅读 1466

GPT/OpenAI/大模型/大模型评测/数学推理

如何评估向量大模型在多种任务上的表现？Massive Text Embedding Benchmark（MTEB）评测介绍

MTEB是一个用于评估向量大模型向量化准确性的评测排行榜。它全称为Massive Text Embedding Benchmark，是一个旨在衡量文本嵌入模型在多种任务上表现的基准测试。

2025/07/15 18:48:21 阅读 366

MTEB/RAG评测/向量大模型评测/大模型向量能力评测基准/大模型嵌入能力评测

如何评估大模型的创意写作能力？Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

2025/07/15 17:33:32 阅读 848

CreativeWriting/大模型评测/大模型评测基准/大模型评测能力介绍/评测基准

ARC-AGI-2：重塑大模型通用智能评测

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

2025/07/10 12:51:46 阅读 560

ARC-AGI-2/大模型评测/大模型评测基准/评测基准

Ai2发布全新评测基准SciArena：为科学文献任务而生的大模型评测新基准，o3大幅领先所有大模型

Ai2近日发布的全新评测平台——SciArena，为这一痛点带来了创新解法。此次产品不仅继承了“人类众包对比评测”的理念，更结合科学问题的独特复杂性，构建了开放、透明且可迭代的模型评测生态。

2025/07/02 21:06:29 阅读 346

SciArena/大模型科研评测/大模型评测

介绍 AIME 2025：评估大型语言模型高级数学推理能力的基准

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

2025/06/08 21:00:56 阅读 1901

AIME/AIME2025/大模型评测/大模型评测基准/评测基准

MMMU基准：多模态多学科复杂推理能力的权威评估体系

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

2025/05/05 21:48:00 阅读 779

MMMU/多模态评测/大模型多模态能力/大模型评测/大模型评测基准

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13 阅读 3273

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

2025/03/18 15:05:24 阅读 1815

GPQA/GPQADiamond/大模型评测/大模型评测基准

LiveCodeBench：全面的 LLM 代码评测基准基准

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

2025/03/09 19:55:14 阅读 3706

LiveCodeBench/大模型编程评测/大模型评测/大模型评测基准/评测基准

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU（大规模多学科多模态理解和推理基准）是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

2025/02/21 20:51:01 阅读 943

MMMU/大模型多模态评测/大模型评测

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31 阅读 503

SWE-Lancer/大模型评测/大模型评测基准

MATH vs. MATH-500：数学推理评测基准的对比与解析

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

2025/02/15 11:36:41 阅读 2139

MATH/MATH-500/大模型数学评测能力/大模型编程能力/大模型评测/大模型评测基准

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:31 阅读 2657

MMLU/MMLUPro/大模型评测/评测基准

大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

2025/02/03 19:12:29 阅读 2838

HLE/大模型评测/大模型评测基准/评测基准

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

2025/01/30 20:38:31 阅读 1046

ArenaHard/ChatbotArena/大模型评测/评测基准

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

最近自定义GPTs非常火热，出现了大量的自定义GPT，可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT，目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息，包括DataLearner网站上所有的大模型博客和技术介绍。

2023/11/12 11:25:50 阅读 1357

DataLearnerAI-GPT/OpenLLMLeaderboard/大模型评测

DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~

随着各种AI模型的快速发展，选择合适的模型成为了研究和开发的一大挑战。最近一段时间，国产模型不断涌现，让人应接不暇。尽管开源的繁荣提供了更多的选择，实际上也造成了选型的困难，尽管业界提供了很多评测基准，但是，**很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少，甚至只选择对自己有利的结果**。为了更加方便大家对比相关的结果，DataLearner上线了大模型评测综合排行对比表，给大家提供一个更加清晰的对比结果。我们主要关注的是国内开源大模型和一些全球主流模型的对比结果。

2023/09/22 11:52:38 阅读 12807

C-Eval/GSM8K/MMLU/大模型评测

最新博客