模型评测对比 最新基准汇总

DataLearner AI 大模型基准对比 Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 能力评测结果

本页面提供Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型在ARC-AGI,ARC-AGI-2,GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME 2024,AIME2025,FrontierMath,FrontierMath - Tier 4,IMO 2024,IMO 2025,IMO-ProofBench,IMO-ProofBench Advanced,Terminal Bench 2.0,Terminal-Bench,MMMU,Aider-Polyglot,Terminal Bench Hard,τ²-Bench,τ²-Bench - Telecom,IF Bench,Simple Bench,BrowseComp,Creative Writing等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。

模型概览 Model Overview

快速浏览本次参与对比的模型关键信息。

Anthropic
Haiku 4.5

Anthropic 发布的多模态大模型模型。

发布时间
2025-10-15
上下文长度
200K
模型类型
多模态大模型
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)
Anthropic
Claude Sonnet 4

Anthropic 发布的推理大模型模型。

发布时间
2025-05-23
上下文长度
200K
模型类型
推理大模型
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode) 深度思考(Deeper Thinking Mode)
规格详情 无体验地址
Anthropic
Claude Sonnet 4.5

Anthropic 发布的聊天大模型模型。

发布时间
2025-09-30
上下文长度
1000K
模型类型
聊天大模型
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode) 深度思考(Deeper Thinking Mode)

特性明细对比

技术规格、API 能力与生态细节,一眼看清差异。

📊 左右滑动可查看更多模型数据 →
对比项
Haiku 4.5
Anthropic
Claude Sonnet 4
Anthropic
Claude Sonnet 4.5
Anthropic
核心信息
开发机构 Anthropic Anthropic Anthropic Anthropic Anthropic Anthropic
发布时间 2025-10-15 2025-05-23 2025-09-30
模型类型 多模态大模型 推理大模型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开 未公开 未公开
激活参数量 未公开 未公开 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K 200K 1000K
最大输出 65536 64000 65536
支持模态
文本输入
图片输入
音频输入
视频输入
Embedding 输入
输出能力
文本输出
图片输出
音频输出
视频输出
Embedding 输出
开源与许可
代码开源 -- -- --
权重开源 -- -- --
商业授权 不开源 不开源 不开源
资源与链接
GitHub -- -- --
Hugging Face -- -- --
论文/报告 查看 查看 查看
官方介绍 阅读 阅读 阅读
在线体验
Playground 体验入口 体验入口
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型各评测基准得分对比表

评测基准
Haiku 4.5 thinking
Haiku 4.5 normal
Haiku 4.5 thinking + 使用工具
Haiku 4.5 normal + 使用工具
Claude Sonnet 4 thinking
Claude Sonnet 4 normal
Claude Sonnet 4 deeper_thinking + 使用工具
Claude Sonnet 4 parallel_thinking + 使用工具
Claude Sonnet 4 thinking + 使用工具
Claude Sonnet 4 normal + 使用工具
Claude Sonnet 4.5 thinking
Claude Sonnet 4.5 normal
Claude Sonnet 4.5 parallel_thinking + 使用工具
Claude Sonnet 4.5 thinking + 使用工具
Claude Sonnet 4.5 normal + 使用工具
ARC-AGI
综合评估
47.7 14.3 -- -- 40 23.8 -- -- -- -- 63.7 25.5 -- -- --
ARC-AGI-2
综合评估
4.5 1.3 -- -- 5.9 1.3 -- -- -- -- 13.6 3.8 -- -- --
GPQA Diamond
综合评估
73.3 60.5 -- -- 75.4 68 83.8 -- -- -- 83.4 73.7 -- -- --
HLE
综合评估
9.7 4.3 -- -- 9.6 5.52 -- -- -- -- 17.3 7.1 -- -- --
LiveBench
综合评估
71.38 60.42 -- -- 73.82 65.4 -- -- -- -- 78.26 70.56 -- -- --
MMLU Pro
综合评估
76 80 -- -- 84 -- -- -- -- -- 88 -- -- -- --
LiveCodeBench
编程与软件工程
62 51 -- -- 66 48.5 -- -- -- -- 71 59 -- -- --
SWE-Bench Pro - Public
编程与软件工程
39.45 -- -- -- 42.7 -- -- -- -- -- 43.6 -- -- -- --
SWE-bench Verified
编程与软件工程
-- 60.6 73.3 -- -- -- -- 80.2 72.7 -- -- 64.8 82 77.2 --
AIME 2024
数学推理
-- -- -- -- -- 43.4 -- -- -- -- -- -- -- -- --
AIME2025
数学推理
80.7 39 96.3 -- 70.5 38 85 -- -- -- 87 37 -- 100 --
FrontierMath
数学推理
-- 4.1 -- -- -- 4.1 -- -- -- -- -- 5.2 -- -- --
FrontierMath - Tier 4
数学推理
-- -- -- -- -- 0.01 -- -- -- -- -- 2.1 -- -- --
IMO 2024
数学推理
-- -- -- -- 5.2 9.7 -- -- -- -- -- -- -- -- --
IMO 2025
数学推理
-- -- -- -- 4 3.3 -- -- -- -- -- -- -- -- --
IMO-ProofBench
数学推理
-- -- -- -- 27.1 -- -- -- -- -- 27.1 -- -- -- --
IMO-ProofBench Advanced
数学推理
-- -- -- -- 4.8 -- -- -- -- -- 4.8 -- -- -- --
Terminal Bench 2.0
AI Agent - 工具使用
-- -- -- -- -- -- -- -- -- -- -- -- -- 42.8 --
Terminal-Bench
AI Agent - 工具使用
-- -- 41 26 -- -- 41.3 -- 35.5 26 -- -- -- 50 27
MMMU
多模态理解
73.2 -- -- -- -- 76.5 -- -- -- -- 77.8 -- -- -- --
Aider-Polyglot
Agent能力评测
-- -- -- -- 61.3 -- -- -- -- -- -- -- -- -- --
Terminal Bench Hard
Agent能力评测
-- -- -- -- -- -- -- -- -- -- -- -- -- 33 --
τ²-Bench
Agent能力评测
-- -- -- 33 -- -- -- -- 65 52 -- -- -- 84.7 71
τ²-Bench - Telecom
Agent能力评测
-- -- -- -- -- -- -- -- -- -- -- -- -- 98 --
IF Bench
指令跟随
54.3 -- -- -- -- -- -- -- -- -- -- -- -- 57.3 --
Simple Bench
常识推理
-- -- -- -- 45.5 -- -- -- -- -- -- 54.3 -- -- --
BrowseComp
AI Agent - 信息收集
-- -- -- -- -- -- -- -- -- -- -- -- -- 24.1 --
Creative Writing
写作和创作
-- -- -- -- -- 83.05 -- -- -- -- -- -- -- -- --

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 评测结果汇总对比图

按评测类别查看各模型/模式的得分差异。

蓝色柱状系列表示选定模型 Haiku 4.5 在不同模式下的表现

未在对比页指定评测基准,系统已自动加载 10 个评测类别, 共 28 项评测。

评测类别

综合评估评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 6 项榜单 · 全部模式 / 全部工具

评测类别

编程与软件工程评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 3 项榜单 · 全部模式 / 全部工具

评测类别

数学推理评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 8 项榜单 · 全部模式 / 全部工具

评测类别

AI Agent - 工具使用评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 2 项榜单 · 全部模式 / 全部工具

评测类别

多模态理解评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

Agent能力评测评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 4 项榜单 · 全部模式 / 全部工具

评测类别

指令跟随评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

常识推理评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

AI Agent - 信息收集评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

写作和创作评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 的 API 价格对比 Pricing Comparison

输入/输出单价、不同模式费用一览,快速找到性价比。

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 评测基准详表 Benchmark Details

逐个榜单查看各模型表现,支持点击跳转原始链接。