Alibaba открыла Qwen3-TTS: клонирование голоса за 3 секунды и синтез речи в реальном времени

Alibaba Cloud открыла доступ к семейству моделей Qwen3-TTS для синтеза речи.
Qwen3-TTS объединяет генерацию голоса из текста, «дизайн» голоса по текстовому описанию и клонирование голоса по аудио-референсу.
В открытый релиз вошли три ветки: Base, CustomVoice и VoiceDesign.
Qwen3-TTS использует подходы нового поколения, вытесняющие «классические» TTS-конвейеры.
Технология позволяет клонировать голос за считанные секунды.
Модели и токенизаторы опубликованы под Apache-2.0, что облегчает коммерческое применение.
Релиз является частью стратегии Alibaba по развитию ИИ в корпоративных сервисах и потребительских продуктах.
Массовое клонирование голоса может привести к рискам «аудио-дипфейков» и компрометации брендов.