模型评测对比最新基准汇总

DataLearner AI 大模型基准对比
Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型能力评测结果

本页面提供Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Haiku 4.5,Claude Sonnet 4,Claude Sonnet 4.5模型在ARC-AGI,ARC-AGI-2,GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME2025,FrontierMath,Terminal-Bench,MMMU,τ²-Bench,IF Bench等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

模型概览 Model Overview

快速浏览本次参与对比的模型关键信息。

Anthropic

Haiku 4.5

Anthropic 发布的多模态大模型模型。

发布时间: 2025-10-15
上下文长度: 200K
模型类型: 多模态大模型

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）

规格详情在线体验

Anthropic

Claude Sonnet 4

Anthropic 发布的推理大模型模型。

发布时间: 2025-05-23
上下文长度: 200K
模型类型: 推理大模型

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

规格详情无体验地址

Anthropic

Claude Sonnet 4.5

Anthropic 发布的聊天大模型模型。

发布时间: 2025-09-30
上下文长度: 1000K
模型类型: 聊天大模型

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

规格详情在线体验

特性明细对比

技术规格、API 能力与生态细节，一眼看清差异。

📊 左右滑动可查看更多模型数据 →

对比项	H Haiku 4.5 Anthropic	C Claude Sonnet 4 Anthropic	C Claude Sonnet 4.5 Anthropic
核心信息
开发机构	Anthropic	Anthropic	Anthropic
发布时间	2025-10-15	2025-05-23	2025-09-30
模型类型	多模态大模型	推理大模型	聊天大模型
MoE 架构
性能与规格
总参数量	未公开	未公开	未公开
激活参数量	未公开	未公开	未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文	200K	200K	1000K
最大输出	65536	64000	65536
支持模态
文本输入
图片输入
音频输入
视频输入
Embedding 输入
输出能力
文本输出
图片输出
音频输出
视频输出
Embedding 输出
开源与许可
代码开源	--	--	--
权重开源	--	--	--
商业授权	不开源	不开源	不开源
资源与链接
GitHub	--	--	--
Hugging Face	--	--	--
论文/报告	查看	查看	查看
官方介绍	阅读	阅读	阅读
在线体验
Playground	体验入口	—	体验入口

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型各评测基准得分对比表

评测基准	Haiku 4.5 default	Claude Sonnet 4 default	Claude Sonnet 4.5 default
ARC-AGI 综合评估	47.7	40	63.7
ARC-AGI-2 综合评估	4.5	5.9	13.6
GPQA Diamond 综合评估	73.3	83.8	83.4
HLE 综合评估	9.7	9.6	33.6
LiveBench 综合评估	71.38	73.82	78.26
MMLU Pro 综合评估	80	84	88
LiveCodeBench 编程与软件工程	62	66	71
SWE-Bench Pro - Public 编程与软件工程	39.45	42.7	43.6
SWE-bench Verified 编程与软件工程	73.3	80.2	82
AIME2025 数学推理	96.3	85	100
FrontierMath 数学推理	4.1	4.1	5.2
Terminal-Bench AI Agent - 工具使用	41	41.3	50
MMMU 多模态理解	73.2	76.5	77.8
τ²-Bench Agent能力评测	33	52	84.7
IF Bench 指令跟随	54.3	55	57.3

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型评测结果汇总对比图

按评测类别查看各模型/模式的得分差异。

蓝色柱状系列表示选定模型 Haiku 4.5 在不同模式下的表现

未在对比页指定评测基准，系统已自动加载 7 个评测类别，共 15 项评测。

评测类别

综合评估评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 6 项榜单 · 全部模式 / 全部工具

评测类别

编程与软件工程评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 3 项榜单 · 全部模式 / 全部工具

评测类别

数学推理评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 2 项榜单 · 全部模式 / 全部工具

评测类别

AI Agent - 工具使用评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

多模态理解评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

Agent能力评测评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

指令跟随评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 · 1 项榜单 · 全部模式 / 全部工具

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型的 API 价格对比 Pricing Comparison

输入/输出单价、不同模式费用一览，快速找到性价比。

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型评测基准详表 Benchmark Details

逐个榜单查看各模型表现，支持点击跳转原始链接。

模型概览 Model Overview

特性明细对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型各评测基准得分对比表

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 评测结果汇总对比图

综合评估评测对比

编程与软件工程评测对比

数学推理评测对比

AI Agent - 工具使用评测对比

多模态理解评测对比

Agent能力评测评测对比

指令跟随评测对比

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 的 API 价格对比 Pricing Comparison

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型 评测基准详表 Benchmark Details

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型评测结果汇总对比图

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型的 API 价格对比 Pricing Comparison

Haiku 4.5与Claude Sonnet 4、Claude Sonnet 4.5模型评测基准详表 Benchmark Details