Qw

Qwen3-TTS 1.7B

语音大模型

Qwen3-TTS-12Hz-1.7B-CustomVoice

发布时间: 2026-01-22

28
模型参数(Parameters)
17.0
最高上下文长度(Context Length)
8K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果

4096 tokens

模型类型

语音大模型

发布时间

2026-01-22

模型预文件大小

3.4GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
音频 -- 0

Qwen3-TTS 1.7B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Qwen3-TTS-12Hz-1.7B-CustomVoice模型解读

1. Qwen3-TTS 简介与核心特点

Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成(TTS)模型系列。作为 Qwen3 大家族的一员,该模型旨在解决高质量、高自然度以及零样本语音克隆(Zero-Shot Voice Cloning)的难题。其核心特点在于采用了 12Hz 的离散语音 token 流(Discrete Speech Token stream),在保证极低延迟的同时,实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”(Voice Design)和“语音克隆”(Voice Cloning)两大核心功能,能够通过自然语言指令调整生成语音的风格。

2. 架构与技术规格

  • 模型参数:17亿(1.7B)。
  • 架构特点:基于 Transformer 的解码器架构,专门针对音频生成进行了优化。模型引入了“Flash”技术(Qwen3-TTS-Flash),显著提升了推理速度,支持实时流式输出。核心创新在于其 12Hz 的高压缩率 codec,使得模型在长文本生成中保持极高的稳定性(Stability),大幅减少了传统 TTS 模型中常见的丢字、重复或发音错误现象。
  • 训练数据:基于万亿级 token 的多语言文本与高质量音频配对数据训练,涵盖了中文、英文、法文、日文等多种主流语言。

3. 核心能力与支持模态

  • 模态支持:支持文本输入,音频输出(Text-to-Speech)。
  • 能力详述:
    • 零样本克隆:仅需 3-5 秒的参考音频即可高度还原说话人的音色和韵律。
    • 多语言支持:具备强大的跨语言合成能力,支持中英混合生成的平滑过渡。
    • 高保真度:生成的语音在采样率和清晰度上达到了业内顶尖水平,并在主观听感测试(MOS)中表现优异。

4. 性能与基准评测

根据官方技术报告,Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中,其错误率(WER/CER)显著低于同类竞品(如 CosyVoice 1.0 和其他开源 TTS 模型)。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍,极大地降低了部署成本。

5. 应用场景与限制

  • 推荐用例:实时语音助手、有声读物生成、视频配音、游戏角色语音生成。
  • 已知局限:尽管支持多语言,但在部分极低资源语言上的发音准确性仍有提升空间;在极度嘈杂背景下的语音克隆效果可能会受到影响。

6. 访问方式与许可

模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议(或 Qwen Research License),允许学术研究及商业用途。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat