Terminal Bench Hard 评测基准详情

828

本文介绍 Terminal-Bench 的设计理念，深入讲解 core、Terminal-Bench Hard 与最新 Terminal-Bench 2.0 的区别，帮助开发者选择合适的 AI 终端评测基准。

Terminal Bench Hard

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

问题数量 47

发布机构个人

评测类别 Agent能力评测

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

Terminal Bench Hard 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

1

Claude Opus 4.5 default

44.0

2025-11-25

未知

#1

Claude Opus 4.5 default

44.0

Terminal Bench Hard得分 44.0

发布时间 2025-11-25

参数(亿) 未知

查看模型详情

2

GPT-5.1 default

43.0

2025-11-12

未知

#2

GPT-5.1 default

43.0

Terminal Bench Hard得分 43.0

发布时间 2025-11-12

参数(亿) 未知

查看模型详情

3

GLM-5 default

43.0

2026-02-11

7440.0

#3

GLM-5 default

43.0

Terminal Bench Hard得分 43.0

发布时间 2026-02-11

参数(亿) 7440.0

查看模型详情

4

Gemini 3.0 Pro (Preview 11-2025) default

42.0

2025-11-18

未知

#4

Gemini 3.0 Pro (Preview 11-2025) default

42.0

Terminal Bench Hard得分 42.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

5

Gemini 3.0 Pro (Preview 11-2025) default

39.0

2025-11-18

未知

#5

Gemini 3.0 Pro (Preview 11-2025) default

39.0

Terminal Bench Hard得分 39.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

6

GLM-4.7 default

33.3

2025-12-22

3580.0

#6

GLM-4.7 default

33.3

Terminal Bench Hard得分 33.3

发布时间 2025-12-22

参数(亿) 3580.0

查看模型详情

7

Claude Sonnet 4.5 default

33.0

2025-09-30

未知

#7

Claude Sonnet 4.5 default

33.0

Terminal Bench Hard得分 33.0

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

8

Claude Opus 4.1 default

32.0

2025-08-06

未知

#8

Claude Opus 4.1 default

32.0

Terminal Bench Hard得分 32.0

发布时间 2025-08-06

参数(亿) 未知

查看模型详情

9

GLM-4.7-Flash default

32.0

2026-01-19

310.0

#9

GLM-4.7-Flash default

32.0

Terminal Bench Hard得分 32.0

发布时间 2026-01-19

参数(亿) 310.0

查看模型详情

10

GLM-4.7-Flash default

30.0

2026-01-19

310.0

#10

GLM-4.7-Flash default

30.0

Terminal Bench Hard得分 30.0

发布时间 2026-01-19

参数(亿) 310.0

查看模型详情

11

Gemini 2.5-Pro default

25.0

2025-06-05

未知

#11

Gemini 2.5-Pro default

25.0

Terminal Bench Hard得分 25.0

发布时间 2025-06-05

参数(亿) 未知

查看模型详情

12

Claude Sonnet 3.7 default

21.0

2025-02-25

未知

#12

Claude Sonnet 3.7 default

21.0

Terminal Bench Hard得分 21.0

发布时间 2025-02-25

参数(亿) 未知

查看模型详情