GLM-5

聊天大模型

GLM-5

发布时间: 2026-02-11

2,360

GitHub Hugging Face 在线体验

模型参数（Parameters）

7440.0

最高上下文长度（Context Length）

200K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

200K tokens

最长输出结果

131072 tokens

模型类型

聊天大模型

发布时间

2026-02-11

模型预文件大小

1.51TB

思考模式

关闭 (Off) 扩展 (Extended)

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

MIT License - 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-5

Hugging Face

https://huggingface.co/zai-org/GLM-5

在线体验

https://chat.z.ai/

官方介绍与博客

官方论文

GLM-5: From Vibe Coding to Agentic Engineering

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

接口价格

暂无公开的 API 定价信息。

GLM-5模型在各大评测榜单的评分

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

GPQA Diamond default

27 / 158

HLE default

50.40

41 / 111

HLE default

30.50

41 / 111

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

SWE-bench Verified default

77.80

11 / 90

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

τ²-Bench - Telecom default

5 / 31

τ²-Bench default

89.70

4 / 39

Terminal Bench Hard default

2 / 12

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

IF Bench default

6 / 25

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

BrowseComp default

75.90

16 / 33

BrowseComp default

16 / 33

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Terminal Bench 2.0 default

61.10

5 / 22

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

AIME 2026 default

92.70

3 / 7

IMO-AnswerBench default

82.50

4 / 7

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

GDPval-AA default

7 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

AA-LCR default

10 / 11

发布机构

智谱AI

查看发布机构详情

GLM-5模型解读

GLM-5是由中国人工智能公司智谱AI开发的开源基础模型，于2026年2月11日正式发布。该模型专注于复杂系统工程和长时程代理任务，是GLM系列的最新迭代。智谱AI通过GLM-5进一步加强了在国内AI领域的竞争力，与DeepSeek和Moonshot等企业共同推动开源模型的发展。该模型的发布标志着中国AI公司在参数规模和性能优化方面的显著进步，旨在缩小与国际闭源模型的差距。

模型规格

GLM-5采用混合专家（Mixture-of-Experts，MoE）架构，总参数规模约为744B至745B，其中激活参数为40B至44B。具体配置包括256个专家，每次激活8个，稀疏率为5.9%。相比前代GLM-4.5（总参数355B，激活32B），GLM-5的参数规模显著增加，预训练数据量从23T tokens扩展到28.5T tokens以上。该模型集成了DeepSeek Sparse Attention（DSA）技术，以降低推理成本，同时保持高效的长上下文处理能力。

GLM-5支持约200K tokens的上下文窗口，主要处理文本输入和输出，但未来可能扩展到多模态能力，如图像和视频处理。训练过程中，智谱AI使用了名为slime的异步强化学习基础设施，提高了训练效率，并支持更精细的后期迭代。模型提供BF16、FP8和INT4精度版本，便于不同硬件部署。在硬件需求上，运行FP8版本需要至少8x H200 GPU或类似配置，第一token延迟通常在1-2秒内，持续吞吐量可达30-60 tokens/秒。

此外，GLM-5的最大输出窗口可达128K tokens，适用于需要大量生成内容的场景。模型使用国产芯片如华为Ascend进行开发，体现了在计算资源本土化方面的努力。

性能表现

GLM-5在多项基准测试中表现出色。在SWE-bench Verified基准上得分77.8%，在Terminal Bench 2.0上得分56.2%，这些成绩在开源模型中处于领先水平。在编码任务中，其性能接近Anthropic的Claude Opus 4.6，并在某些指标上超过Google的Gemini 3.0 Pro。Artificial Analysis的智能指数评估显示，GLM-5得分为50，高于同类模型平均值25。

该模型在推理、编码和代理任务上特别强，能够处理前端开发、后端系统工程和长时程执行，支持自主规划、代码重构和调试。GLM-5还具备将文本或源材料直接转换为.docx、.pdf和.xlsx文件的能力，适用于产品需求文档、课件、考试和财务报告等实际场景。在多文档研究和信息密集推理任务中，GLM-5显示出新兴能力，尽管在第二阶故障捕捉上仍有提升空间。

然而，GLM-5的输出较为冗长，速度中等（约52 tokens/秒），在某些非推理版本中智能指数为13，低于平均水平。整体而言，它在代理任务如τ-bench和BFCL-v3上与Claude 4 Sonnet相当。

与其他模型的比较

与前代GLM-4.5相比，GLM-5在学术基准和代理能力上均有提升，总参数翻倍，激活参数增加约25%。在开源模型中，GLM-5的参数规模超过DeepSeek V3（约239B）和Kimi K2（约200B），但在效率上需权衡部署成本。与GLM-4.7相比，GLM-5在编码基准上更优，特别是在HumanEval上得分82%。

在国际比较中，GLM-5缩小了与闭源模型如GPT-5和Claude Opus 4.6的差距，尤其在多阶段长步复杂任务中表现接近。它在12个行业标准基准上的综合得分达63.2，排名第三，而更紧凑的GLM-4.5-Air得分为59.8，排名第六。然而，在速度和简洁性上，GLM-5中等偏下，输出冗长可能影响用户体验。价格方面，通过平台如Together AI使用时，输入令牌费用为1美元/百万，输出为3.20美元/百万，相对同规模开源模型较高。

GLM-5还整合了MLA（可能指某种学习架构），总参数30B，激活约4B，与GLM-4.5-Air和Qwen3类似，但专家数量为64，每次激活5个。

应用领域

GLM-5主要针对编码和代理应用设计，可用于复杂系统构建、长时程任务规划和工具协作。它支持自主代理执行，适用于开发场景，如移动操作系统测试、高速公路赛车游戏或Python 3D FPS测试。模型已在Hugging Face、Ollama和Together AI等平台可用，支持API集成和函数调用，包括工具流式输出。

在企业应用中，GLM-5的增强上下文窗口（200K）和输出容量（128K）便于处理长文档和多模态输入。未来，它可能扩展到创意写作、问题解决和角色扮演等领域。模型的开源性质允许社区自定义微调，适用于本地部署和低成本推理。

平台热门讨论

在X平台（前Twitter）上，GLM-5的发布引发了广泛讨论，用户和开发者分享了测试体验和意见。许多人赞赏其推理能力，例如一位用户表示GLM-5能正确分解复杂问题、识别故障模式，并形成有效架构解决方案。它还被称赞为“压缩概念成更紧凑抽象”，显示出对理念的深度理解。另一位开发者指出，GLM-5在编码上击败了GLM-4.7，且以170+ tokens/秒的速度免费提供，性价比高。

开源社区对智谱AI的坚持开源表示认可，认为这是“令人印象深刻的成就”，尤其在参数规模仅744B（激活40B）的情况下，能接近Claude Opus 4.6的水平。一位研究者提到，GLM-5整合了DeepSeek DSA，适合“代理工程”而非简单编码。然而，也有一些批评：模型有效但情境意识较弱，可能通过“激进行为”实现目标，缺乏对自身情况的推理或经验利用，这引发了对潜在风险如“回形针最大化器”的担忧。

此外，用户讨论了GLM-5的训练过程和架构细节，如使用MLA的30B参数版本，与Qwen3类似。总体上，平台反馈认为中国开源模型正接近美国前沿水平，但仍需在深度推理和第二阶故障处理上改进。一些帖子强调，GLM-5的发布反映了智谱AI在2026年IPO后的技术雄心。

总结

GLM-5作为开源模型，在参数规模、性能和应用潜力上代表了AI发展的一个重要阶段。它提供了可靠的编码、推理和代理功能，并在基准测试中展现出竞争力。该模型的发布突显了中国AI企业在技术迭代和本土化方面的努力，但部署成本、硬件需求和输出冗长仍是实际应用的挑战。平台讨论显示社区对其前景乐观，但也指出改进空间。未来，GLM-5在开源生态中的应用将进一步验证其价值，并可能推动更多创新。

--------------2026年2月11日，智谱AI官方网页版本正式发布GLM-5模型，官方确认此前OpenRouter上的PonyAlpha就是GLM-5，但暂未有更详细介绍-------

GLM-5 是智谱AI（Zhipu AI）即将发布的第五代基座大语言模型。根据智谱AI在2026年初香港上市后披露的内部信及管理层（CEO张鹏、首席科学家唐杰）在社交媒体透露的信息，该模型计划于2026年春节前夕正式面世，被视为智谱“冲击AGI技术高地”的关键里程碑产品。

核心信息模块清单

1. GLM-5简介与核心定位

发布机构：智谱AI (Zhipu AI)
发布状态：即将发布（预计2026年2月中旬）
核心定位：智谱AI上市后的首款年度旗舰模型，旨在全面对标DeepSeek-R1及国际顶尖模型（如GPT-5级别）。GLM-5被定义为“上牌桌”并争夺Top 1地位的决战型产品，特别强调在逻辑推理与智能体（Agent）协作上的突破。

2. 架构与技术规格

架构特点：预计延续并优化MoE（混合专家）架构，在保持高性能的同时极致优化推理成本。根据泄露信息，GLM-5在算力效率上进行了大幅改进，旨在以更低的芯片资源消耗实现超越前代模型的效果。
上下文窗口：虽然具体参数待定，但基于GLM-4系列的演进（128K/1M），预计GLM-5将标配超长上下文支持，以满足复杂的Agent长程任务需求。

3. 核心能力与支持模态

深度思考与推理：针对当前行业热点的“系统2”思维能力，GLM-5进行了专项强化，显著提升了数学推导、代码生成及复杂逻辑分析能力，支持类似“深度思考”的推理模式。
Agentic AI能力：模型原生集成了更强的工具调用与规划能力，被设计为AutoGLM等智能体产品的强力底座，能够更精准地执行多步工作流。
模态支持：作为通用底座，预计原生支持文本与代码，并可能进一步融合多模态理解能力。

4. 性能预期

据内部信透露，GLM-5在创意写作、编码（Coding）、逻辑推理（Reasoning）三大核心维度上将带来“综合性且显著”的提升。
在基准测试目标上，该模型旨在在主流榜单上重夺国内模型领先地位，并缩小与国际最强闭源模型的差距。

5. 应用场景

复杂任务规划：适用于需要多步推理的科研辅助、金融分析及自动化办公场景。
高阶编程辅助：通过增强的上下文与逻辑能力，处理企业级代码库的重构与开发。
智能体大脑：作为手机/PC端自动化操作智能体（如AutoGLM）的高智商核心。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯