Qwen3.5-35B-A3B-Instruct

聊天大模型

发布时间: 2026-02-16

1,235

GitHub Hugging Face 在线体验

模型参数（Parameters）

350.0

最高上下文长度（Context Length）

256K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

256K tokens

最长输出结果

8192 tokens

模型类型

聊天大模型

发布时间

2026-02-16

模型预文件大小

70GB

思考模式

关闭 (Off) 扩展 (Extended) (默认)

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License - 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen3.5

Hugging Face

https://huggingface.co/Qwen/Qwen3.5-35B-A3B-Instruct

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Qwen3.5 MoE Series Technical Report (Rumor)

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

暂无公开的 API 定价信息。

Qwen3.5-35B-A3B-Instruct模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

阿里巴巴

查看发布机构详情

Qwen3.5-35B-A3B-Instruct模型解读

Qwen3.5-35B-A3B是传闻中阿里即将开源的一个全新的MoE架构大模型，目前发现于 Hugging Face 的 Qwen 官方组织仓库中一个被短暂公开随后隐藏的 config.json 文件中，也有人在 Qwen 官方 Github 仓库的 Issue 讨论区以及 Unsloth 框架的最新适配代码 中发现了这个模型的名字。目前还未发布。

根据 X (原Twitter) 上的知名开源模型爆料账号及 Reddit LocalLLaMA 社区的深度挖掘 推测，这不仅是 Qwen3 系列的简单升级，而是阿里为了应对 2026 年初端侧模型爆发而推出的一张“王牌”。

以下是关于该模型爆料传闻的详细整理：

🕵️‍♂️ 传闻来源与发现过程

代码库泄露: 最早的迹象来自一名开发者在查看 Qwen 开源仓库的 dev 分支时，意外发现了一个名为 Qwen3.5-35B-A3B-Instruct 的配置文件夹引用。虽然该文件夹无法访问，但文件名本身暴露了关键参数。
框架适配痕迹: 随后，在推理框架 Unsloth 或 vLLM 的一次非官方 PR（Pull Request）中，出现了针对 "Qwen2.5/3.5 MoE" 架构的特殊算子优化，注释中明确提到了 "35B total, 3B active" 的规格。
开发者暗示: Qwen 团队的核心成员（如 Binyuan Hui 等）近期在 X 上发布了若干关于“极致压缩”和“速度与智能的平衡”的推文，被社区解读为为新模型预热。

🧩 模型命名与规格解码

这个名字 Qwen3.5-35B-A3B 包含了极高密度的技术信息：

Qwen3.5 (世代):这代表它是 Qwen3（于 2025 年 4 月发布）的半代升级版。按照惯例，".5" 版本通常意味着在保持架构大体不变的情况下，使用了更高质量的数据集（特别是合成数据）进行训练，并大幅增强了指令遵循和长窗口能力。
35B (总参数 - Total Params):传闻推测: 总参数量约为 350 亿。这比上一代 Qwen3-30B-A3B 多出了 50 亿参数，推测这增加的参数主要用于存储更多的世界知识（World Knowledge）和长尾语言能力。
A3B (激活参数 - Active Params):核心亮点: "Active 3 Billion"。这是该模型最恐怖的地方。尽管拥有 35B 的“脑容量”，但在生成每个 token 时，仅激活 30 亿参数。技术含义: 这意味着它的推理速度将极其惊人，理论上比纯 7B 模型还要快（因为内存带宽占用虽大，但计算量极小），同时显存占用对于 35B 级别的 MoE 来说通常经过量化后非常友好。

🔮 性能与定位推测

根据社区大神（如 Reddit 的 LocalLLaMA 用户）的分析：

“降维打击”: 该模型极有可能旨在取代目前的 7B-14B 密集型（Dense）模型市场。它用 30 亿的计算量，提供接近 30B-40B 密集型模型的智力水平。
本地部署神器: 如果量化得当（如 4-bit 量化），该模型可能仅需 20GB 左右的显存（甚至更低，取决于专家路由机制的优化），这意味着单张 RTX 3090/4090 或 Mac Studio (M系列芯片) 将能以 100+ tokens/s 的速度运行一个“准 GPT-4”级别的模型。
Coding 能力: 鉴于 Qwen 系列在代码生成上的强势，推测 Qwen3.5-35B-A3B 将集成最新的代码训练数据，成为本地 IDE 插件（如 Cursor, Copilot 本地版）的首选后端模型。

⚠️ 结论

如果传闻属实，Qwen3.5-35B-A3B 将是 2026 年上半年最值得期待的本地 LLM。它精准地切中了当前开源社区的痛点：我们不需要更大的参数，我们需要更聪明的“小”模型。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯