模型评测对比
最新基准汇总
DataLearner AI 大模型基准对比
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型
能力评测结果
本页面提供DeepSeek-V3.1,DeepSeek-V3-0324,DeepSeek-R1-0528模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示DeepSeek-V3.1,DeepSeek-V3-0324,DeepSeek-R1-0528模型在HLE,GPQA Diamond,SWE-bench Verified,AIME 2024,LiveCodeBench,AIME2025,Terminal-Bench,Aider-Polyglot等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
模型概览 Model Overview
快速浏览本次参与对比的模型关键信息。
特性明细对比
技术规格、API 能力与生态细节,一眼看清差异。
📊 左右滑动可查看更多模型数据 →
| 对比项 |
D
DeepSeek-V3.1
DeepSeek-AI
|
D
DeepSeek-V3-0324
DeepSeek-AI
|
D
DeepSeek-R1-0528
DeepSeek-AI
|
|---|---|---|---|
| 核心信息 | |||
| 开发机构 |
DeepSeek-AI
|
DeepSeek-AI
|
DeepSeek-AI
|
| 发布时间 | 2025-08-20 | 2025-03-24 | 2025-05-28 |
| 模型类型 | 聊天大模型 | 聊天大模型 | 推理大模型 |
| MoE 架构 | |||
| 性能与规格 | |||
| 总参数量 | 6,710 亿 | 6,710 亿 | 6,710 亿 |
| 激活参数量 | 370 亿 | 370 亿 | 370 亿 |
| 模型大小 | 1340GB | 1442GB | 685GB |
| 推理能力 | |||
| 推理速度 | |||
| 思考模式 | |||
| 深度思考 | |||
| 最大上下文 | 128K | 128K | 64K |
| 最大输出 | 8192 | 0 | 64000 |
| 支持模态 | |||
| 文本输入 | |||
| 图片输入 | |||
| 音频输入 | |||
| 视频输入 | |||
| Embedding 输入 | |||
| 输出能力 | |||
| 文本输出 | |||
| 图片输出 | |||
| 音频输出 | |||
| 视频输出 | |||
| Embedding 输出 | |||
| 开源与许可 | |||
| 代码开源 | |||
| 权重开源 | |||
| 商业授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 |
| 资源与链接 | |||
| GitHub | -- | 仓库 | 仓库 |
| Hugging Face | 模型页 | 模型页 | 模型页 |
| 论文/报告 | 查看 | -- | 查看 |
| 官方介绍 | 阅读 | 阅读 | -- |
| 在线体验 | |||
| Playground | 体验入口 | 体验入口 | 体验入口 |
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型各评测基准得分对比表
| 评测基准 |
DeepSeek-V3.1
thinking
|
DeepSeek-V3.1
normal
|
DeepSeek-V3.1
normal + 使用工具
|
DeepSeek-V3-0324
normal
|
DeepSeek-R1-0528
thinking
|
|---|---|---|---|---|---|
|
HLE
综合评估
|
15.9 | -- | -- | 5.2 | 17.7 |
|
GPQA Diamond
综合评估
|
80.1 | 74.9 | -- | 68.4 | 81 |
|
SWE-bench Verified
编程与软件工程
|
-- | 66 | -- | 38.8 | 57.6 |
|
AIME 2024
数学推理
|
93.1 | 66.3 | -- | 59.4 | 91.4 |
|
LiveCodeBench
编程与软件工程
|
74.8 | 56.4 | -- | 49.2 | 73.3 |
|
AIME2025
数学推理
|
88.4 | 49.8 | -- | 47.7 | 87.5 |
|
Terminal-Bench
AI Agent - 工具使用
|
-- | -- | 31.3 | 13.3 | 5.7 |
|
Aider-Polyglot
Agent能力评测
|
76.3 | 68.4 | -- | 55.1 | 71.4 |
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 的 API 价格对比 Pricing Comparison
输入/输出单价、不同模式费用一览,快速找到性价比。
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型 评测基准详表 Benchmark Details
逐个榜单查看各模型表现,支持点击跳转原始链接。
DeepSeek-AI