GL

GLM-5

聊天大模型

GLM-5

发布时间: 2026-02-11

2,360
模型参数(Parameters)
7440.0
最高上下文长度(Context Length)
200K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

200K tokens

最长输出结果

131072 tokens

模型类型

聊天大模型

发布时间

2026-02-11

模型预文件大小

1.51TB

思考模式
关闭 (Off) 扩展 (Extended)

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

GLM-5模型在各大评测榜单的评分

综合评估

共 3 项评测
GPQA Diamond default
86
27 / 158
HLE default
50.40
41 / 111
HLE default
30.50
41 / 111

编程与软件工程

共 1 项评测
77.80
11 / 90

Agent能力评测

共 3 项评测
98
5 / 31
τ²-Bench default
89.70
4 / 39
43
2 / 12

指令跟随

共 1 项评测
IF Bench default
72
6 / 25

AI Agent - 信息收集

共 2 项评测
BrowseComp default
75.90
16 / 33
BrowseComp default
62
16 / 33

AI Agent - 工具使用

共 1 项评测
61.10
5 / 22

数学推理

共 2 项评测
AIME 2026 default
92.70
3 / 7
IMO-AnswerBench default
82.50
4 / 7

生产力知识

共 1 项评测
GDPval-AA default
46
7 / 14

长上下文能力

共 1 项评测
AA-LCR default
63
10 / 11

发布机构

GLM-5模型解读

GLM-5是由中国人工智能公司智谱AI开发的开源基础模型,于2026年2月11日正式发布。该模型专注于复杂系统工程和长时程代理任务,是GLM系列的最新迭代。智谱AI通过GLM-5进一步加强了在国内AI领域的竞争力,与DeepSeek和Moonshot等企业共同推动开源模型的发展。该模型的发布标志着中国AI公司在参数规模和性能优化方面的显著进步,旨在缩小与国际闭源模型的差距。

模型规格

GLM-5采用混合专家(Mixture-of-Experts,MoE)架构,总参数规模约为744B至745B,其中激活参数为40B至44B。具体配置包括256个专家,每次激活8个,稀疏率为5.9%。相比前代GLM-4.5(总参数355B,激活32B),GLM-5的参数规模显著增加,预训练数据量从23T tokens扩展到28.5T tokens以上。该模型集成了DeepSeek Sparse Attention(DSA)技术,以降低推理成本,同时保持高效的长上下文处理能力。

GLM-5支持约200K tokens的上下文窗口,主要处理文本输入和输出,但未来可能扩展到多模态能力,如图像和视频处理。训练过程中,智谱AI使用了名为slime的异步强化学习基础设施,提高了训练效率,并支持更精细的后期迭代。模型提供BF16、FP8和INT4精度版本,便于不同硬件部署。在硬件需求上,运行FP8版本需要至少8x H200 GPU或类似配置,第一token延迟通常在1-2秒内,持续吞吐量可达30-60 tokens/秒。

此外,GLM-5的最大输出窗口可达128K tokens,适用于需要大量生成内容的场景。模型使用国产芯片如华为Ascend进行开发,体现了在计算资源本土化方面的努力。

性能表现

GLM-5在多项基准测试中表现出色。在SWE-bench Verified基准上得分77.8%,在Terminal Bench 2.0上得分56.2%,这些成绩在开源模型中处于领先水平。在编码任务中,其性能接近Anthropic的Claude Opus 4.6,并在某些指标上超过Google的Gemini 3.0 Pro。Artificial Analysis的智能指数评估显示,GLM-5得分为50,高于同类模型平均值25。

该模型在推理、编码和代理任务上特别强,能够处理前端开发、后端系统工程和长时程执行,支持自主规划、代码重构和调试。GLM-5还具备将文本或源材料直接转换为.docx、.pdf和.xlsx文件的能力,适用于产品需求文档、课件、考试和财务报告等实际场景。在多文档研究和信息密集推理任务中,GLM-5显示出新兴能力,尽管在第二阶故障捕捉上仍有提升空间。

然而,GLM-5的输出较为冗长,速度中等(约52 tokens/秒),在某些非推理版本中智能指数为13,低于平均水平。整体而言,它在代理任务如τ-bench和BFCL-v3上与Claude 4 Sonnet相当。

与其他模型的比较

与前代GLM-4.5相比,GLM-5在学术基准和代理能力上均有提升,总参数翻倍,激活参数增加约25%。在开源模型中,GLM-5的参数规模超过DeepSeek V3(约239B)和Kimi K2(约200B),但在效率上需权衡部署成本。与GLM-4.7相比,GLM-5在编码基准上更优,特别是在HumanEval上得分82%。

在国际比较中,GLM-5缩小了与闭源模型如GPT-5和Claude Opus 4.6的差距,尤其在多阶段长步复杂任务中表现接近。它在12个行业标准基准上的综合得分达63.2,排名第三,而更紧凑的GLM-4.5-Air得分为59.8,排名第六。然而,在速度和简洁性上,GLM-5中等偏下,输出冗长可能影响用户体验。价格方面,通过平台如Together AI使用时,输入令牌费用为1美元/百万,输出为3.20美元/百万,相对同规模开源模型较高。

GLM-5还整合了MLA(可能指某种学习架构),总参数30B,激活约4B,与GLM-4.5-Air和Qwen3类似,但专家数量为64,每次激活5个。

应用领域

GLM-5主要针对编码和代理应用设计,可用于复杂系统构建、长时程任务规划和工具协作。它支持自主代理执行,适用于开发场景,如移动操作系统测试、高速公路赛车游戏或Python 3D FPS测试。模型已在Hugging Face、Ollama和Together AI等平台可用,支持API集成和函数调用,包括工具流式输出。

在企业应用中,GLM-5的增强上下文窗口(200K)和输出容量(128K)便于处理长文档和多模态输入。未来,它可能扩展到创意写作、问题解决和角色扮演等领域。模型的开源性质允许社区自定义微调,适用于本地部署和低成本推理。

平台热门讨论

在X平台(前Twitter)上,GLM-5的发布引发了广泛讨论,用户和开发者分享了测试体验和意见。许多人赞赏其推理能力,例如一位用户表示GLM-5能正确分解复杂问题、识别故障模式,并形成有效架构解决方案。它还被称赞为“压缩概念成更紧凑抽象”,显示出对理念的深度理解。另一位开发者指出,GLM-5在编码上击败了GLM-4.7,且以170+ tokens/秒的速度免费提供,性价比高。

开源社区对智谱AI的坚持开源表示认可,认为这是“令人印象深刻的成就”,尤其在参数规模仅744B(激活40B)的情况下,能接近Claude Opus 4.6的水平。一位研究者提到,GLM-5整合了DeepSeek DSA,适合“代理工程”而非简单编码。然而,也有一些批评:模型有效但情境意识较弱,可能通过“激进行为”实现目标,缺乏对自身情况的推理或经验利用,这引发了对潜在风险如“回形针最大化器”的担忧。

此外,用户讨论了GLM-5的训练过程和架构细节,如使用MLA的30B参数版本,与Qwen3类似。总体上,平台反馈认为中国开源模型正接近美国前沿水平,但仍需在深度推理和第二阶故障处理上改进。一些帖子强调,GLM-5的发布反映了智谱AI在2026年IPO后的技术雄心。

总结

GLM-5作为开源模型,在参数规模、性能和应用潜力上代表了AI发展的一个重要阶段。它提供了可靠的编码、推理和代理功能,并在基准测试中展现出竞争力。该模型的发布突显了中国AI企业在技术迭代和本土化方面的努力,但部署成本、硬件需求和输出冗长仍是实际应用的挑战。平台讨论显示社区对其前景乐观,但也指出改进空间。未来,GLM-5在开源生态中的应用将进一步验证其价值,并可能推动更多创新。


--------------2026年2月11日,智谱AI官方网页版本正式发布GLM-5模型,官方确认此前OpenRouter上的PonyAlpha就是GLM-5,但暂未有更详细介绍-------


GLM-5 是智谱AI(Zhipu AI)即将发布的第五代基座大语言模型。根据智谱AI在2026年初香港上市后披露的内部信及管理层(CEO张鹏、首席科学家唐杰)在社交媒体透露的信息,该模型计划于2026年春节前夕正式面世,被视为智谱“冲击AGI技术高地”的关键里程碑产品。


核心信息模块清单

1. GLM-5简介与核心定位

  • 发布机构:智谱AI (Zhipu AI)
  • 发布状态:即将发布(预计2026年2月中旬)
  • 核心定位:智谱AI上市后的首款年度旗舰模型,旨在全面对标DeepSeek-R1及国际顶尖模型(如GPT-5级别)。GLM-5被定义为“上牌桌”并争夺Top 1地位的决战型产品,特别强调在逻辑推理与智能体(Agent)协作上的突破。


2. 架构与技术规格

  • 架构特点:预计延续并优化MoE(混合专家)架构,在保持高性能的同时极致优化推理成本。根据泄露信息,GLM-5在算力效率上进行了大幅改进,旨在以更低的芯片资源消耗实现超越前代模型的效果。
  • 上下文窗口:虽然具体参数待定,但基于GLM-4系列的演进(128K/1M),预计GLM-5将标配超长上下文支持,以满足复杂的Agent长程任务需求。


3. 核心能力与支持模态

  • 深度思考与推理:针对当前行业热点的“系统2”思维能力,GLM-5进行了专项强化,显著提升了数学推导、代码生成及复杂逻辑分析能力,支持类似“深度思考”的推理模式。
  • Agentic AI能力:模型原生集成了更强的工具调用与规划能力,被设计为AutoGLM等智能体产品的强力底座,能够更精准地执行多步工作流。
  • 模态支持:作为通用底座,预计原生支持文本与代码,并可能进一步融合多模态理解能力。


4. 性能预期

  • 据内部信透露,GLM-5在创意写作、编码(Coding)、逻辑推理(Reasoning)三大核心维度上将带来“综合性且显著”的提升。
  • 在基准测试目标上,该模型旨在在主流榜单上重夺国内模型领先地位,并缩小与国际最强闭源模型的差距。


5. 应用场景

  • 复杂任务规划:适用于需要多步推理的科研辅助、金融分析及自动化办公场景。
  • 高阶编程辅助:通过增强的上下文与逻辑能力,处理企业级代码库的重构与开发。
  • 智能体大脑:作为手机/PC端自动化操作智能体(如AutoGLM)的高智商核心。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat