Qwen3-TTS-12Hz-1.7B-CustomVoice
不支持
8K tokens
4096 tokens
语音大模型
2026-01-22
3.4GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 音频 | 0 |
Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成(TTS)模型系列。作为 Qwen3 大家族的一员,该模型旨在解决高质量、高自然度以及零样本语音克隆(Zero-Shot Voice Cloning)的难题。其核心特点在于采用了 12Hz 的离散语音 token 流(Discrete Speech Token stream),在保证极低延迟的同时,实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”(Voice Design)和“语音克隆”(Voice Cloning)两大核心功能,能够通过自然语言指令调整生成语音的风格。
根据官方技术报告,Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中,其错误率(WER/CER)显著低于同类竞品(如 CosyVoice 1.0 和其他开源 TTS 模型)。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍,极大地降低了部署成本。
模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议(或 Qwen Research License),允许学术研究及商业用途。
关注DataLearnerAI微信公众号,接受最新大模型资讯