模型评测对比 最新基准汇总

DataLearner AI 大模型基准对比 DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 能力评测结果

本页面提供DeepSeek-V3.1,DeepSeek-V3-0324,DeepSeek-R1-0528模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示DeepSeek-V3.1,DeepSeek-V3-0324,DeepSeek-R1-0528模型在HLE,GPQA Diamond,SWE-bench Verified,AIME 2024,LiveCodeBench,AIME2025,Terminal-Bench,Aider-Polyglot等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。

模型概览 Model Overview

快速浏览本次参与对比的模型关键信息。

DeepSeek-AI
DeepSeek-V3.1

DeepSeek-AI 发布的聊天大模型模型。

发布时间
2025-08-20
上下文长度
128K
模型类型
聊天大模型
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)
DeepSeek-AI
DeepSeek-V3-0324

DeepSeek-AI 发布的聊天大模型模型。

发布时间
2025-03-24
上下文长度
128K
模型类型
聊天大模型
常规模式(Non-Thinking Mode)
DeepSeek-AI
DeepSeek-R1-0528

DeepSeek-AI 发布的推理大模型模型。

发布时间
2025-05-28
上下文长度
64K
模型类型
推理大模型
思考模式(Thinking Mode)

特性明细对比

技术规格、API 能力与生态细节,一眼看清差异。

📊 左右滑动可查看更多模型数据 →
对比项
DeepSeek-V3.1
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
核心信息
开发机构 DeepSeek-AI DeepSeek-AI DeepSeek-AI DeepSeek-AI DeepSeek-AI DeepSeek-AI
发布时间 2025-08-20 2025-03-24 2025-05-28
模型类型 聊天大模型 聊天大模型 推理大模型
MoE 架构
性能与规格
总参数量 6,710 亿 6,710 亿 6,710 亿
激活参数量 370 亿 370 亿 370 亿
模型大小 1340GB 1442GB 685GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K 128K 64K
最大输出 8192 0 64000
支持模态
文本输入
图片输入
音频输入
视频输入
Embedding 输入
输出能力
文本输出
图片输出
音频输出
视频输出
Embedding 输出
开源与许可
代码开源
权重开源
商业授权 免费商用授权 免费商用授权 免费商用授权
资源与链接
GitHub -- 仓库 仓库
Hugging Face 模型页 模型页 模型页
论文/报告 查看 -- 查看
官方介绍 阅读 阅读 --
在线体验
Playground 体验入口 体验入口 体验入口
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型各评测基准得分对比表

评测基准
DeepSeek-V3.1 thinking
DeepSeek-V3.1 normal
DeepSeek-V3.1 normal + 使用工具
DeepSeek-V3-0324 normal
DeepSeek-R1-0528 thinking
HLE
综合评估
15.9 -- -- 5.2 17.7
GPQA Diamond
综合评估
80.1 74.9 -- 68.4 81
SWE-bench Verified
编程与软件工程
-- 66 -- 38.8 57.6
AIME 2024
数学推理
93.1 66.3 -- 59.4 91.4
LiveCodeBench
编程与软件工程
74.8 56.4 -- 49.2 73.3
AIME2025
数学推理
88.4 49.8 -- 47.7 87.5
Terminal-Bench
AI Agent - 工具使用
-- -- 31.3 13.3 5.7
Aider-Polyglot
Agent能力评测
76.3 68.4 -- 55.1 71.4

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 评测结果汇总对比图

按评测类别查看各模型/模式的得分差异。

蓝色柱状系列表示选定模型 DeepSeek-V3.1 在不同模式下的表现

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 的 API 价格对比 Pricing Comparison

输入/输出单价、不同模式费用一览,快速找到性价比。

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 评测基准详表 Benchmark Details

逐个榜单查看各模型表现,支持点击跳转原始链接。