Qwen3-TTS 1.7B

语音大模型

Qwen3-TTS-12Hz-1.7B-CustomVoice

发布时间: 2026-01-22

482

GitHub Hugging Face 在线体验

模型参数（Parameters）

17.0

最高上下文长度（Context Length）

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果

4096 tokens

模型类型

语音大模型

发布时间

2026-01-22

模型预文件大小

3.4GB

思考模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0 - 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen

Hugging Face

https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

在线体验

https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo

官方介绍与博客

官方论文

Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!

DataLearnerAI博客

https://www.datalearner.com/blog/1051769091773677

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
音频	--	0

Qwen3-TTS 1.7B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

阿里巴巴

查看发布机构详情

Qwen3-TTS-12Hz-1.7B-CustomVoice模型解读

1. Qwen3-TTS 简介与核心特点

Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成（TTS）模型系列。作为 Qwen3 大家族的一员，该模型旨在解决高质量、高自然度以及零样本语音克隆（Zero-Shot Voice Cloning）的难题。其核心特点在于采用了 12Hz 的离散语音 token 流（Discrete Speech Token stream），在保证极低延迟的同时，实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”（Voice Design）和“语音克隆”（Voice Cloning）两大核心功能，能够通过自然语言指令调整生成语音的风格。

2. 架构与技术规格

模型参数：17亿（1.7B）。
架构特点：基于 Transformer 的解码器架构，专门针对音频生成进行了优化。模型引入了“Flash”技术（Qwen3-TTS-Flash），显著提升了推理速度，支持实时流式输出。核心创新在于其 12Hz 的高压缩率 codec，使得模型在长文本生成中保持极高的稳定性（Stability），大幅减少了传统 TTS 模型中常见的丢字、重复或发音错误现象。
训练数据：基于万亿级 token 的多语言文本与高质量音频配对数据训练，涵盖了中文、英文、法文、日文等多种主流语言。

3. 核心能力与支持模态

模态支持：支持文本输入，音频输出（Text-to-Speech）。
能力详述：

4. 性能与基准评测

根据官方技术报告，Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中，其错误率（WER/CER）显著低于同类竞品（如 CosyVoice 1.0 和其他开源 TTS 模型）。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍，极大地降低了部署成本。

5. 应用场景与限制

推荐用例：实时语音助手、有声读物生成、视频配音、游戏角色语音生成。
已知局限：尽管支持多语言，但在部分极低资源语言上的发音准确性仍有提升空间；在极度嘈杂背景下的语音克隆效果可能会受到影响。

6. 访问方式与许可

模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议（或 Qwen Research License），允许学术研究及商业用途。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯