postman request POST ‘localhost:8080/api/admin/delete-model-benchmark-results/739’ \
—body ‘’

接口文档:批量管理大模型评测结果

1. 基础信息

  • 接口地址: {BASE_URL}/api/admin/add-benchmark-result/handler
  • 请求方法: POST
  • Content-Type: application/json
  • 接口描述: 管理端接口,用于批量新增、更新或删除模型评测结果(支持多条数据同时操作,支持设置评测的推理模式/参数模式)。

2. 请求参数 (Request Body)

请求体为一个 JSON 对象,对应后端 BenchmarkResultUpdateRequest 类,主要包含 新增/更新 列表和 删除 列表。

字段名称 数据类型 必填 默认值 描述
entries Array of Object [] 新增/更新的评测结果集合。如果相同维度(如同一模型、同一评测、同一模式)已存在数据,则执行更新覆盖操作;否则新增。
deletes Array of Object [] 删除的评测结果集合。通常根据传入数据的唯一标识或维度进行匹配删除。

2.1 列表中单个元素对象 (ModelBenchmarkResult) 释义

entriesdeletes 数组中的元素对应后端 ModelBenchmarkResult 类,其核心关键字段如下:

字段名称 数据类型 必填 描述
modelId Integer [核心] 需要添加结果的模型 ID (如:826 代表某版本的模型)。
benchmarkId Integer [核心] 对应的评测基准 ID (如:1 代表 MMLU)。
evalResult Float 是* [核心] 该次评测的得分 (新增和更新时必填)。
modeId Long [模式] 关联的规范化评测模式 ID (如 Thinking 深度配置表对应 ID)。
modelMode String [模式] 规范化的评测模式标识符 (如 xhigh, medium, base),通常用于筛选和标识。
rawModeLabel String [模式] 原始内容中的评测方式/标签 (如 0-shot, CoT, k=1, think-max)。用于记录最真实的评测环境标注。
category String 在某一具体评测下的细分分类 (如 MMLU 中的 STEM 等)。
benchmarkCode String 评测基准的标识 Code (辅助字段)。

(注:ModelBenchmarkResult 类中还包含诸多其他用于关联查询展现的字段,但在写入接口中,通常仅需传入上述核心数据。)


3. 响应结果 (Response)

响应由后端的标准 JSON 结果工具或拦截器包装,结构简明:

3.1 响应字段

字段名 类型 描述
status Integer 状态码。200 表示成功,500 表示发生错误或操作失败。
message String 接口处理详情提示,通常为中文 (如 "添加成功!""添加失败!")。

3.2 成功响应示例

{
    "status": 200,
    "message": "添加成功!"
}

3.3 失败响应示例

{
    "status": 500,
    "message": "添加失败!"
}

4. 完整的请求示例

场景说明

本示例向接口提交了一批数据:

  1. 新增/更新: 我们为 modelId = 826 的模型同时添加 MMLU (benchmarkId = 1) 和 HumanEval (benchmarkId = 9) 的评测结果。在 HumanEval 评测中,还指定了这使用了高强度的推理模式 (modelMode: "xhigh"modeId: 5, rawModeLabel: "pass@1, high-thinking")。
  2. 删除: 删除一条该模型之前旧的过期测试数据。

Request Body (JSON)

{
  "entries": [
    {
      "modelId": 826,
      "benchmarkId": 1,
      "evalResult": 88.5,
      "modelMode": "base",
      "rawModeLabel": "5-shot"
    },
    {
      "modelId": 826,
      "benchmarkId": 9,
      "evalResult": 92.3,
      "modelMode": "xhigh",
      "modeId": 5,
      "rawModeLabel": "pass@1, high-thinking"
    }
  ],
  "deletes": [
    {
      "modelId": 826,
      "benchmarkId": 12,
      "modelMode": "base" 
    }
  ]
}

接口文档:获取评测模式列表

1. 基础信息

  • 接口地址: {BASE_URL}/api/eval-modes
  • 请求方法: GET
  • 接口描述: 前端接口,用于获取系统支持的所有规范化评测模式 (Eval Modes) 列表。这些模式用于在评测结果展示时,区分和过滤模型使用的推理策略(如 base, medium, xhigh 等)。

2. 请求参数 (Query Parameters)

通过 URL Query 参数传递。

参数名称 数据类型 必填 默认值 描述
includeInactive Boolean false 是否包含已停用的评测模式。传入 true 则返回所有数据,false 则仅返回处于启用状态(active=1)的模式列表。

(例如: /api/eval-modes?includeInactive=false)


3. 响应结果 (Response)

响应由后端的标准 JSON 结果工具包装,data 字段中包含一个对象,对象中的 modes 键对应的是 EvalMode 对象的数组集合。

3.1 响应顶层字段

字段名 类型 描述
status Integer 状态码。200 表示成功。
message String 处理详情说明,通常为 "success"
data Object 具体的响应有效载荷数据(Payload)。包含一个 modes 对象数组。

3.2 data.modes 列表中单个元素对象 (EvalMode) 释义

字段名称 数据类型 描述
modeId Long 评测模式的唯一 ID(主键)。
canonicalKey String 系统内部的标准标识键 (如:base, medium, xhigh)。用于逻辑判断与过滤。
displayNameZh String 该模式的中文显示名称 (如:标准模式, 中强度思考)。
displayNameEn String 该模式的英文显示名称 (如:Base Mode, Medium Thinking)。
thinkingModeKey String 关联的思考模式层级大类键值关联 (关联大类体系)。
toolUsage String 工具使用情况说明 (如:null, code_interpreter)。
internetUsage Integer 是否使用了网络检索。
parallelFlag Integer 评测时是否使用了并行/多线程测试等标记 flag。
reasoningBudgetType String 推理资源的预算类型机制描述 (如 token 或时间等算力预算)。
reasoningBudgetValue Integer 推理预算对应的具体估量值或强度配额。
vendorRawLabelPattern String 厂商原始的标记模式/正则表达式映射 (用于导入数据时的默认转换映射)。
active Integer 状态:1 代表启用,0 代表停用。
sortOrder Integer 排序权重,默认按此字段对输出的列表进行排序展现。
createdAt String 创建时间。
updatedAt String 最后更新时间。

4. 完整的响应示例

{
    "status": 200,
    "message": "success",
    "data": {
        "modes": [
            {
                "modeId": 1,
                "canonicalKey": "base",
                "displayNameZh": "标准模式",
                "displayNameEn": "Base Mode",
                "thinkingModeKey": "base",
                "toolUsage": null,
                "internetUsage": 0,
                "parallelFlag": 0,
                "reasoningBudgetType": null,
                "reasoningBudgetValue": null,
                "vendorRawLabelPattern": null,
                "active": 1,
                "sortOrder": 1,
                "createdAt": "2026-03-09 10:00:00",
                "updatedAt": "2026-03-09 10:00:00"
            },
            {
                "modeId": 5,
                "canonicalKey": "xhigh",
                "displayNameZh": "超高强度思考",
                "displayNameEn": "Extremely High Thinking",
                "thinkingModeKey": "reasoning",
                "toolUsage": null,
                "internetUsage": 0,
                "parallelFlag": 0,
                "reasoningBudgetType": "token",
                "reasoningBudgetValue": 32000,
                "vendorRawLabelPattern": "pass@1, high-thinking",
                "active": 1,
                "sortOrder": 5,
                "createdAt": "2026-03-09 10:00:00",
                "updatedAt": "2026-03-09 10:30:00"
            }
        ]
    }
}

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码