postman request POST ‘localhost:8080/api/admin/delete-model-benchmark-results/739’ \
—body ‘’
接口文档:批量管理大模型评测结果
1. 基础信息
- 接口地址:
{BASE_URL}/api/admin/add-benchmark-result/handler - 请求方法:
POST - Content-Type:
application/json - 接口描述: 管理端接口,用于批量新增、更新或删除模型评测结果(支持多条数据同时操作,支持设置评测的推理模式/参数模式)。
2. 请求参数 (Request Body)
请求体为一个 JSON 对象,对应后端 BenchmarkResultUpdateRequest 类,主要包含 新增/更新 列表和 删除 列表。
| 字段名称 | 数据类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
entries |
Array of Object | 否 | [] |
待新增/更新的评测结果集合。如果相同维度(如同一模型、同一评测、同一模式)已存在数据,则执行更新覆盖操作;否则新增。 |
deletes |
Array of Object | 否 | [] |
待删除的评测结果集合。通常根据传入数据的唯一标识或维度进行匹配删除。 |
2.1 列表中单个元素对象 (ModelBenchmarkResult) 释义
entries 和 deletes 数组中的元素对应后端 ModelBenchmarkResult 类,其核心关键字段如下:
| 字段名称 | 数据类型 | 必填 | 描述 |
|---|---|---|---|
modelId |
Integer | 是 | [核心] 需要添加结果的模型 ID (如:826 代表某版本的模型)。 |
benchmarkId |
Integer | 是 | [核心] 对应的评测基准 ID (如:1 代表 MMLU)。 |
evalResult |
Float | 是* | [核心] 该次评测的得分 (新增和更新时必填)。 |
modeId |
Long | 否 | [模式] 关联的规范化评测模式 ID (如 Thinking 深度配置表对应 ID)。 |
modelMode |
String | 否 | [模式] 规范化的评测模式标识符 (如 xhigh, medium, base),通常用于筛选和标识。 |
rawModeLabel |
String | 否 | [模式] 原始内容中的评测方式/标签 (如 0-shot, CoT, k=1, think-max)。用于记录最真实的评测环境标注。 |
category |
String | 否 | 在某一具体评测下的细分分类 (如 MMLU 中的 STEM 等)。 |
benchmarkCode |
String | 否 | 评测基准的标识 Code (辅助字段)。 |
(注:ModelBenchmarkResult 类中还包含诸多其他用于关联查询展现的字段,但在写入接口中,通常仅需传入上述核心数据。)
3. 响应结果 (Response)
响应由后端的标准 JSON 结果工具或拦截器包装,结构简明:
3.1 响应字段
| 字段名 | 类型 | 描述 |
|---|---|---|
status |
Integer | 状态码。200 表示成功,500 表示发生错误或操作失败。 |
message |
String | 接口处理详情提示,通常为中文 (如 "添加成功!" 或 "添加失败!")。 |
3.2 成功响应示例
{
"status": 200,
"message": "添加成功!"
}
3.3 失败响应示例
{
"status": 500,
"message": "添加失败!"
}
4. 完整的请求示例
场景说明
本示例向接口提交了一批数据:
- 新增/更新: 我们为
modelId = 826的模型同时添加 MMLU (benchmarkId = 1) 和 HumanEval (benchmarkId = 9) 的评测结果。在 HumanEval 评测中,还指定了这使用了高强度的推理模式 (modelMode: "xhigh",modeId: 5,rawModeLabel: "pass@1, high-thinking")。 - 删除: 删除一条该模型之前旧的过期测试数据。
Request Body (JSON)
{
"entries": [
{
"modelId": 826,
"benchmarkId": 1,
"evalResult": 88.5,
"modelMode": "base",
"rawModeLabel": "5-shot"
},
{
"modelId": 826,
"benchmarkId": 9,
"evalResult": 92.3,
"modelMode": "xhigh",
"modeId": 5,
"rawModeLabel": "pass@1, high-thinking"
}
],
"deletes": [
{
"modelId": 826,
"benchmarkId": 12,
"modelMode": "base"
}
]
}
接口文档:获取评测模式列表
1. 基础信息
- 接口地址:
{BASE_URL}/api/eval-modes - 请求方法:
GET - 接口描述: 前端接口,用于获取系统支持的所有规范化评测模式 (Eval Modes) 列表。这些模式用于在评测结果展示时,区分和过滤模型使用的推理策略(如 base, medium, xhigh 等)。
2. 请求参数 (Query Parameters)
通过 URL Query 参数传递。
| 参数名称 | 数据类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
includeInactive |
Boolean | 否 | false |
是否包含已停用的评测模式。传入 true 则返回所有数据,false 则仅返回处于启用状态(active=1)的模式列表。 |
(例如: /api/eval-modes?includeInactive=false)
3. 响应结果 (Response)
响应由后端的标准 JSON 结果工具包装,data 字段中包含一个对象,对象中的 modes 键对应的是 EvalMode 对象的数组集合。
3.1 响应顶层字段
| 字段名 | 类型 | 描述 |
|---|---|---|
status |
Integer | 状态码。200 表示成功。 |
message |
String | 处理详情说明,通常为 "success"。 |
data |
Object | 具体的响应有效载荷数据(Payload)。包含一个 modes 对象数组。 |
3.2 data.modes 列表中单个元素对象 (EvalMode) 释义
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
modeId |
Long | 评测模式的唯一 ID(主键)。 |
canonicalKey |
String | 系统内部的标准标识键 (如:base, medium, xhigh)。用于逻辑判断与过滤。 |
displayNameZh |
String | 该模式的中文显示名称 (如:标准模式, 中强度思考)。 |
displayNameEn |
String | 该模式的英文显示名称 (如:Base Mode, Medium Thinking)。 |
thinkingModeKey |
String | 关联的思考模式层级大类键值关联 (关联大类体系)。 |
toolUsage |
String | 工具使用情况说明 (如:null, code_interpreter)。 |
internetUsage |
Integer | 是否使用了网络检索。 |
parallelFlag |
Integer | 评测时是否使用了并行/多线程测试等标记 flag。 |
reasoningBudgetType |
String | 推理资源的预算类型机制描述 (如 token 或时间等算力预算)。 |
reasoningBudgetValue |
Integer | 推理预算对应的具体估量值或强度配额。 |
vendorRawLabelPattern |
String | 厂商原始的标记模式/正则表达式映射 (用于导入数据时的默认转换映射)。 |
active |
Integer | 状态:1 代表启用,0 代表停用。 |
sortOrder |
Integer | 排序权重,默认按此字段对输出的列表进行排序展现。 |
createdAt |
String | 创建时间。 |
updatedAt |
String | 最后更新时间。 |
4. 完整的响应示例
{
"status": 200,
"message": "success",
"data": {
"modes": [
{
"modeId": 1,
"canonicalKey": "base",
"displayNameZh": "标准模式",
"displayNameEn": "Base Mode",
"thinkingModeKey": "base",
"toolUsage": null,
"internetUsage": 0,
"parallelFlag": 0,
"reasoningBudgetType": null,
"reasoningBudgetValue": null,
"vendorRawLabelPattern": null,
"active": 1,
"sortOrder": 1,
"createdAt": "2026-03-09 10:00:00",
"updatedAt": "2026-03-09 10:00:00"
},
{
"modeId": 5,
"canonicalKey": "xhigh",
"displayNameZh": "超高强度思考",
"displayNameEn": "Extremely High Thinking",
"thinkingModeKey": "reasoning",
"toolUsage": null,
"internetUsage": 0,
"parallelFlag": 0,
"reasoningBudgetType": "token",
"reasoningBudgetValue": 32000,
"vendorRawLabelPattern": "pass@1, high-thinking",
"active": 1,
"sortOrder": 5,
"createdAt": "2026-03-09 10:00:00",
"updatedAt": "2026-03-09 10:30:00"
}
]
}
}