本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。
所有评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
数据地址:https://www.datalearner.com/leaderboards/category/math
|
排名
|
模型
|
AIME2025
|
AIME 2024
|
MATH-500
|
GSM8K
|
|---|---|---|---|---|---|
| 1 |
GPT-5
thinking + 使用工具
|
99.60 | 未公布 | 未公布 | 未公布 |
| 2 |
OpenAI o4 - mini
thinking + 使用工具
|
99.50 | 98.70 | 未公布 | 未公布 |
| 3 |
Gemini 2.5 Deep Think
deeper_thinking
|
99.20 | 未公布 | 未公布 | 未公布 |
| 4 |
Kimi K2 Thinking
thinking + 使用工具
|
99.10 | 未公布 | 未公布 | 未公布 |
| 5 |
Grok 4
thinking + 使用工具
|
98.80 | 未公布 | 未公布 | 未公布 |
| 6 |
GPT OSS 20B
thinking + 使用工具
|
98.70 | 96.00 | 未公布 | 未公布 |
| 7 |
GLM-4.6
thinking + 使用工具
|
98.60 | 未公布 | 未公布 | 未公布 |
| 8 |
GLM-4.6
thinking
|
98.60 | 未公布 | 未公布 | 未公布 |
| 9 |
GPT OSS 120B
thinking + 使用工具
|
97.90 | 96.60 | 未公布 | 未公布 |
| 10 |
GPT-5-Pro
thinking
|
96.70 | 未公布 | 未公布 | 未公布 |
| 11 |
Haiku 4.5
thinking + 使用工具
|
96.30 | 未公布 | 未公布 | 未公布 |
| 12 |
DeepSeek V3.2 Speciale
thinking
|
96.00 | 未公布 | 未公布 | 未公布 |
| 13 |
Gemini 3.0 Pro (Preview 11-2025)
thinking
|
95.00 | 未公布 | 未公布 | 未公布 |
| 14 |
GPT-5
thinking
|
94.60 | 未公布 | 未公布 | 未公布 |
| 15 |
Kimi K2 Thinking
thinking
|
94.50 | 未公布 | 未公布 | 未公布 |
| 16 |
GPT-5.1
high
|
94.00 | 未公布 | 未公布 | 未公布 |
| 17 |
DeepSeek V3.2
thinking
|
93.10 | 未公布 | 未公布 | 未公布 |
| 18 |
|
93.00 | 93.00 | 未公布 | 未公布 |
| 19 |
OpenAI o4 - mini
thinking
|
92.70 | 93.40 | 未公布 | 未公布 |
| 20 |
Qwen3-235B-A22B-Thinking
thinking
|
92.30 | 未公布 | 未公布 | 未公布 |
| 21 |
Qwen3-235B-A22B-Thinking-2507
thinking
|
92.30 | 未公布 | 未公布 | 未公布 |
| 22 |
Grok 4 Fast
thinking
|
92.00 | 未公布 | 未公布 | 未公布 |
| 23 |
Grok 4
thinking
|
91.70 | 未公布 | 未公布 | 未公布 |
| 24 |
DeepSeek-V3.1 Terminus
thinking
|
90.00 | 未公布 | 未公布 | 未公布 |
| 25 |
DeepSeek V3.2-Exp
thinking
|
89.30 | 未公布 | 未公布 | 未公布 |
| 26 |
Grok 4.1 Fast
thinking
|
89.00 | 未公布 | 未公布 | 未公布 |
| 27 |
OpenAI o3
thinking
|
88.90 | 未公布 | 未公布 | 未公布 |
| 28 |
DeepSeek-V3.1
thinking
|
88.40 | 93.10 | 未公布 | 未公布 |
| 29 |
Gemini 2.5-Pro
thinking
|
88.00 | 未公布 | 未公布 | 未公布 |
| 30 |
DeepSeek-R1-0528
thinking
|
87.50 | 91.40 | 98.00 | 未公布 |
| 31 |
Claude Sonnet 4.5
thinking
|
87.00 | 未公布 | 未公布 | 未公布 |
| 32 |
|
86.90 | 92.00 | 未公布 | 未公布 |
| 33 |
OpenAI o3-mini
thinking
|
86.50 | 60.00 | 95.80 | 未公布 |
| 34 |
|
86.00 | 未公布 | 未公布 | 未公布 |
| 35 |
Claude Sonnet 4
deeper_thinking + 使用工具
|
85.00 | 未公布 | 未公布 | 未公布 |
| 36 |
|
83.00 | 92.00 | 98.80 | 未公布 |
| 37 |
GPT OSS 120B
thinking
|
83.00 | 未公布 | 未公布 | 未公布 |
| 38 |
|
82.90 | 未公布 | 未公布 | 未公布 |
| 39 |
Qwen3-235B-A22B
thinking
|
81.50 | 85.70 | 98.00 | 未公布 |
| 40 |
Qwen3-4B-Thinking-2507
thinking
|
81.30 | 未公布 | 未公布 | 未公布 |
| 41 |
Haiku 4.5
thinking
|
80.70 | 未公布 | 未公布 | 未公布 |
| 42 |
|
80.60 | 未公布 | 未公布 | 未公布 |
| 43 |
GPT OSS 20B
thinking
|
79.00 | 未公布 | 未公布 | 未公布 |
| 44 |
MiniMax M2
thinking
|
78.00 | 未公布 | 未公布 | 未公布 |
| 45 |
Claude Opus 4.1
thinking + 使用工具
|
78.00 | 未公布 | 未公布 | 未公布 |
| 46 |
Claude Opus 4.1
thinking
|
78.00 | 未公布 | 未公布 | 未公布 |
| 47 |
|
77.10 | 84.20 | 未公布 | 未公布 |
| 48 |
|
76.90 | 86.00 | 96.80 | 未公布 |
| 49 |
|
76.80 | 87.30 | 未公布 | 91.83 |
| 50 |
|
75.50 | 76.00 | 98.20 | 未公布 |
| 51 |
|
75.30 | 81.10 | 93.70 | 未公布 |
| 52 |
Kimi K2 0905
thinking + 使用工具
|
75.20 | 未公布 | 未公布 | 未公布 |
| 53 |
|
74.60 | 83.30 | 96.00 | 未公布 |
| 54 |
|
72.90 | 81.40 | 未公布 | 未公布 |
| 55 |
Qwen3-32B
thinking
|
72.90 | 81.40 | 97.20 | 未公布 |
| 56 |
Gemini 2.5 Flash
thinking
|
72.00 | 未公布 | 未公布 | 未公布 |
| 57 |
Claude Sonnet 4
thinking
|
70.50 | 未公布 | 未公布 | 未公布 |
| 58 |
|
70.30 | 未公布 | 未公布 | 未公布 |
| 59 |
|
70.00 | 79.80 | 97.30 | 未公布 |
| 60 |
|
69.50 | 未公布 | 未公布 | 90.30 |
| 61 |
|
68.10 | 79.20 | 96.80 | 未公布 |
| 62 |
Qwen3-8B
thinking
|
67.30 | 76.00 | 97.40 | 未公布 |
| 63 |
|
64.95 | 73.59 | 未公布 | 未公布 |
| 64 |
|
63.10 | 未公布 | 未公布 | 未公布 |
| 65 |
|
62.76 | 70.68 | 未公布 | 未公布 |
| 66 |
|
61.90 | 未公布 | 未公布 | 未公布 |
| 67 |
|
61.60 | 88.00 | 未公布 | 未公布 |
| 68 |
|
61.30 | 未公布 | 未公布 | 未公布 |
| 69 |
|
58.00 | 未公布 | 未公布 | 未公布 |
| 70 |
|
54.80 | 23.30 | 82.20 | 未公布 |
| 71 |
|
54.00 | 69.60 | 97.40 | 未公布 |
| 72 |
|
54.00 | 未公布 | 未公布 | 未公布 |
| 73 |
|
49.80 | 66.30 | 未公布 | 未公布 |
| 74 |
|
47.70 | 59.40 | 94.00 | 96.30 |
| 75 |
|
47.40 | 未公布 | 未公布 | 未公布 |
| 76 |
GPT-5-mini
thinking
|
47.00 | 未公布 | 未公布 | 未公布 |
| 77 |
|
47.00 | 未公布 | 未公布 | 未公布 |
| 78 |
|
44.00 | 未公布 | 未公布 | 未公布 |
| 79 |
GPT-4o
normal + 使用工具
|
42.10 | 未公布 | 未公布 | 未公布 |
| 80 |
|
39.00 | 未公布 | 未公布 | 未公布 |
| 81 |
|
38.00 | 43.40 | 未公布 | 未公布 |
| 82 |
|
37.00 | 未公布 | 未公布 | 未公布 |
| 83 |
|
36.70 | 48.10 | 92.80 | 95.90 |
| 84 |
ERNIE-4.5-VL-424B-A47B-Base
thinking
|
35.10 | 未公布 | 未公布 | 未公布 |
| 85 |
|
35.10 | 54.80 | 96.40 | 96.60 |
| 86 |
|
29.70 | 未公布 | 未公布 | 未公布 |
| 87 |
|
26.70 | 未公布 | 未公布 | 未公布 |
| 88 |
|
24.70 | 85.70 | 96.20 | 96.40 |
| 89 |
|
21.60 | 未公布 | 未公布 | 未公布 |
| 90 |
|
20.90 | 79.40 | 87.40 | 未公布 |
| 91 |
Claude Sonnet 4.5
thinking + 使用工具
|
100.00 | 未公布 | 未公布 | 未公布 |
| 92 |
Kimi K2 Thinking
parallel_thinking + 使用工具
|
100.00 | 未公布 | 未公布 | 未公布 |
| 93 |
Grok 4 Heavy
parallel_thinking
|
100.00 | 未公布 | 未公布 | 未公布 |
| 94 |
GPT-5-Pro
thinking + 使用工具
|
100.00 | 未公布 | 未公布 | 未公布 |
| 95 |
|
未公布 | 87.00 | 97.90 | 未公布 |
| 96 |
|
未公布 | 未公布 | 96.20 | 未公布 |
| 97 |
GLM-4.5-Air
thinking
|
未公布 | 89.40 | 98.10 | 未公布 |
| 98 |
|
未公布 | 91.60 | 98.10 | 未公布 |
| 99 |
GLM-4.5
thinking
|
未公布 | 91.00 | 98.20 | 未公布 |
| 100 |
|
未公布 | 92.00 | 98.80 | 未公布 |
| 101 |
|
未公布 | 未公布 | 未公布 | 未公布 |
| 102 |
|
未公布 | 未公布 | 未公布 | 未公布 |
| 103 |
|
未公布 | 未公布 | 未公布 | 未公布 |
| 104 |
|
未公布 | 未公布 | 未公布 | 34.00 |
| 105 |
|
未公布 | 未公布 | 未公布 | 36.20 |
| 106 |
|
未公布 | 未公布 | 未公布 | 55.30 |
| 107 |
|
未公布 | 未公布 | 未公布 | 70.70 |
| 108 |
|
未公布 | 未公布 | 未公布 | 77.40 |
| 109 |
|
未公布 | 未公布 | 未公布 | 79.10 |
| 110 |
|
未公布 | 未公布 | 未公布 | 82.40 |
| 111 |
|
未公布 | 未公布 | 未公布 | 85.40 |
| 112 |
|
未公布 | 10.00 | 71.80 | 88.60 |
| 113 |
|
未公布 | 未公布 | 未公布 | 91.30 |
| 114 |
|
未公布 | 未公布 | 未公布 | 91.50 |
| 115 |
|
未公布 | 未公布 | 未公布 | 94.50 |
| 116 |
|
未公布 | 未公布 | 未公布 | 95.00 |
| 117 |
|
未公布 | 未公布 | 未公布 | 95.90 |
| 118 |
|
未公布 | 81.90 | 92.40 | 95.98 |
| 119 |
|
未公布 | 39.00 | 87.80 | 未公布 |
| 120 |
|
未公布 | 未公布 | 未公布 | 未公布 |
| 121 |
|
未公布 | 25.30 | 未公布 | 未公布 |
| 122 |
|
未公布 | 29.40 | 未公布 | 未公布 |
| 123 |
|
未公布 | 36.00 | 未公布 | 未公布 |
| 124 |
|
未公布 | 40.00 | 未公布 | 未公布 |
| 125 |
|
未公布 | 49.60 | 未公布 | 未公布 |
| 126 |
|
未公布 | 76.40 | 未公布 | 未公布 |
| 127 |
|
未公布 | 93.30 | 未公布 | 未公布 |
| 128 |
|
未公布 | 96.00 | 未公布 | 未公布 |
| 129 |
|
未公布 | 9.30 | 75.90 | 未公布 |
| 130 |
|
未公布 | 16.00 | 78.00 | 未公布 |
| 131 |
|
未公布 | 79.20 | 96.40 | 未公布 |
| 132 |
|
未公布 | 63.60 | 90.00 | 未公布 |
| 133 |
|
未公布 | 50.00 | 90.40 | 未公布 |
| 134 |
|
未公布 | 50.00 | 90.60 | 未公布 |
| 135 |
|
未公布 | 36.70 | 90.70 | 未公布 |
| 136 |
|
未公布 | 79.50 | 91.00 | 未公布 |
| 137 |
|
未公布 | 53.30 | 91.40 | 未公布 |
| 138 |
|
未公布 | 未公布 | 94.50 | 未公布 |
| 139 |
|
未公布 | 未公布 | 94.60 | 未公布 |
| 140 |
|
未公布 | 未公布 | 95.00 | 未公布 |
| 141 |
|
未公布 | 78.20 | 96.20 | 未公布 |
| 142 |
|
未公布 | 80.00 | 96.20 | 未公布 |