postman request POST ‘localhost:8080/api/admin/delete-model-benchmark-results/739’ \
—body ‘’

接口文档：批量管理大模型评测结果

1. 基础信息

接口地址: {BASE_URL}/api/admin/add-benchmark-result/handler
请求方法: POST
Content-Type: application/json
接口描述: 管理端接口，用于批量新增、更新或删除模型评测结果（支持多条数据同时操作，支持设置评测的推理模式/参数模式）。

2. 请求参数 (Request Body)

请求体为一个 JSON 对象，对应后端 BenchmarkResultUpdateRequest 类，主要包含 新增/更新 列表和 删除 列表。

字段名称	数据类型	必填	默认值	描述
`entries`	Array of Object	否	`[]`	待新增/更新的评测结果集合。如果相同维度（如同一模型、同一评测、同一模式）已存在数据，则执行更新覆盖操作；否则新增。
`deletes`	Array of Object	否	`[]`	待删除的评测结果集合。通常根据传入数据的唯一标识或维度进行匹配删除。

2.1 列表中单个元素对象 (ModelBenchmarkResult) 释义

entries 和 deletes 数组中的元素对应后端 ModelBenchmarkResult 类，其核心关键字段如下：

字段名称	数据类型	必填	描述
`modelId`	Integer	是	[核心] 需要添加结果的模型 ID (如：826 代表某版本的模型)。
`benchmarkId`	Integer	是	[核心] 对应的评测基准 ID (如：1 代表 MMLU)。
`evalResult`	Float	是*	[核心] 该次评测的得分 (新增和更新时必填)。
`modeId`	Long	否	[模式] 关联的规范化评测模式 ID (如 Thinking 深度配置表对应 ID)。
`modelMode`	String	否	[模式] 规范化的评测模式标识符 (如 `xhigh`, `medium`, `base`)，通常用于筛选和标识。
`rawModeLabel`	String	否	[模式] 原始内容中的评测方式/标签 (如 `0-shot`, `CoT`, `k=1`, `think-max`)。用于记录最真实的评测环境标注。
`category`	String	否	在某一具体评测下的细分分类 (如 MMLU 中的 `STEM` 等)。
`benchmarkCode`	String	否	评测基准的标识 Code (辅助字段)。

(注：ModelBenchmarkResult 类中还包含诸多其他用于关联查询展现的字段，但在写入接口中，通常仅需传入上述核心数据。)

3. 响应结果 (Response)

响应由后端的标准 JSON 结果工具或拦截器包装，结构简明：

3.1 响应字段

字段名	类型	描述
`status`	Integer	状态码。`200` 表示成功，`500` 表示发生错误或操作失败。
`message`	String	接口处理详情提示，通常为中文 (如 `"添加成功！"` 或 `"添加失败！"`)。

3.2 成功响应示例

{
    "status": 200,
    "message": "添加成功！"
}

3.3 失败响应示例

{
    "status": 500,
    "message": "添加失败！"
}

4. 完整的请求示例

场景说明

本示例向接口提交了一批数据：

新增/更新： 我们为 modelId = 826 的模型同时添加 MMLU (benchmarkId = 1) 和 HumanEval (benchmarkId = 9) 的评测结果。在 HumanEval 评测中，还指定了这使用了高强度的推理模式 (modelMode: "xhigh"，modeId: 5, rawModeLabel: "pass@1, high-thinking")。
删除： 删除一条该模型之前旧的过期测试数据。

Request Body (JSON)

{
  "entries": [
    {
      "modelId": 826,
      "benchmarkId": 1,
      "evalResult": 88.5,
      "modelMode": "base",
      "rawModeLabel": "5-shot"
    },
    {
      "modelId": 826,
      "benchmarkId": 9,
      "evalResult": 92.3,
      "modelMode": "xhigh",
      "modeId": 5,
      "rawModeLabel": "pass@1, high-thinking"
    }
  ],
  "deletes": [
    {
      "modelId": 826,
      "benchmarkId": 12,
      "modelMode": "base" 
    }
  ]
}

接口文档：获取评测模式列表

1. 基础信息

接口地址: {BASE_URL}/api/eval-modes
请求方法: GET
接口描述: 前端接口，用于获取系统支持的所有规范化评测模式 (Eval Modes) 列表。这些模式用于在评测结果展示时，区分和过滤模型使用的推理策略（如 base, medium, xhigh 等）。

2. 请求参数 (Query Parameters)

通过 URL Query 参数传递。

参数名称	数据类型	必填	默认值	描述
`includeInactive`	Boolean	否	`false`	是否包含已停用的评测模式。传入 `true` 则返回所有数据，`false` 则仅返回处于启用状态（`active=1`）的模式列表。

(例如: /api/eval-modes?includeInactive=false)

3. 响应结果 (Response)

响应由后端的标准 JSON 结果工具包装，data 字段中包含一个对象，对象中的 modes 键对应的是 EvalMode 对象的数组集合。

3.1 响应顶层字段

字段名	类型	描述
`status`	Integer	状态码。`200` 表示成功。
`message`	String	处理详情说明，通常为 `"success"`。
`data`	Object	具体的响应有效载荷数据（Payload）。包含一个 `modes` 对象数组。

3.2 `data.modes` 列表中单个元素对象 (EvalMode) 释义

字段名称	数据类型	描述
`modeId`	Long	评测模式的唯一 ID（主键）。
`canonicalKey`	String	系统内部的标准标识键 (如：`base`, `medium`, `xhigh`)。用于逻辑判断与过滤。
`displayNameZh`	String	该模式的中文显示名称 (如：`标准模式`, `中强度思考`)。
`displayNameEn`	String	该模式的英文显示名称 (如：`Base Mode`, `Medium Thinking`)。
`thinkingModeKey`	String	关联的思考模式层级大类键值关联 (关联大类体系)。
`toolUsage`	String	工具使用情况说明 (如：`null`, `code_interpreter`)。
`internetUsage`	Integer	是否使用了网络检索。
`parallelFlag`	Integer	评测时是否使用了并行/多线程测试等标记 flag。
`reasoningBudgetType`	String	推理资源的预算类型机制描述 (如 token 或时间等算力预算)。
`reasoningBudgetValue`	Integer	推理预算对应的具体估量值或强度配额。
`vendorRawLabelPattern`	String	厂商原始的标记模式/正则表达式映射 (用于导入数据时的默认转换映射)。
`active`	Integer	状态：`1` 代表启用，`0` 代表停用。
`sortOrder`	Integer	排序权重，默认按此字段对输出的列表进行排序展现。
`createdAt`	String	创建时间。
`updatedAt`	String	最后更新时间。

4. 完整的响应示例

{
    "status": 200,
    "message": "success",
    "data": {
        "modes": [
            {
                "modeId": 1,
                "canonicalKey": "base",
                "displayNameZh": "标准模式",
                "displayNameEn": "Base Mode",
                "thinkingModeKey": "base",
                "toolUsage": null,
                "internetUsage": 0,
                "parallelFlag": 0,
                "reasoningBudgetType": null,
                "reasoningBudgetValue": null,
                "vendorRawLabelPattern": null,
                "active": 1,
                "sortOrder": 1,
                "createdAt": "2026-03-09 10:00:00",
                "updatedAt": "2026-03-09 10:00:00"
            },
            {
                "modeId": 5,
                "canonicalKey": "xhigh",
                "displayNameZh": "超高强度思考",
                "displayNameEn": "Extremely High Thinking",
                "thinkingModeKey": "reasoning",
                "toolUsage": null,
                "internetUsage": 0,
                "parallelFlag": 0,
                "reasoningBudgetType": "token",
                "reasoningBudgetValue": 32000,
                "vendorRawLabelPattern": "pass@1, high-thinking",
                "active": 1,
                "sortOrder": 5,
                "createdAt": "2026-03-09 10:00:00",
                "updatedAt": "2026-03-09 10:30:00"
            }
        ]
    }
}

接口文档：批量管理大模型评测结果

1. 基础信息

2. 请求参数 (Request Body)

2.1 列表中单个元素对象 (ModelBenchmarkResult) 释义

3. 响应结果 (Response)

3.1 响应字段

3.2 成功响应示例

3.3 失败响应示例

4. 完整的请求示例

场景说明

Request Body (JSON)

接口文档：获取评测模式列表

1. 基础信息

2. 请求参数 (Query Parameters)

3. 响应结果 (Response)

3.1 响应顶层字段

3.2 data.modes 列表中单个元素对象 (EvalMode) 释义

4. 完整的响应示例

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

3.2 `data.modes` 列表中单个元素对象 (EvalMode) 释义