TTS
Text-to-Speech — синтез речи, преобразование текста в звуковую волну.
Что такое TTS
TTS (Text-to-Speech, синтез речи) — задача преобразования текста в аудио с естественно звучащей речью. Современные TTS-системы на основе нейросетей создают речь, практически неотличимую от человеческой.
Архитектуры TTS
Cascade TTS (классический подход):
- Text normalization: "ООО «ЦТК»" → "общество с ограниченной ответственностью ЦТК"
- G2P (Grapheme-to-Phoneme): текст → фонемы
- Acoustic model: фонемы → mel-spectrogram
- Vocoder: mel-spectrogram → аудиоволна
End-to-end TTS (современный): модель напрямую из текста в аудио.
Популярные TTS-модели
Coqui TTS / XTTS: open-source, поддерживает многоязычный голосовой клонинг (zero-shot voice cloning). Хорошее качество для русского:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
tts.tts_to_file(
text="Привет! Это синтезированная речь.",
speaker_wav="reference_voice.wav", # Образец голоса (3–10 сек)
language="ru",
file_path="output.wav"
)
Silero TTS: лёгкая и быстрая русскоязычная TTS. Хорошее качество, работает на CPU.
ElevenLabs, OpenAI TTS: облачные API с высочайшим качеством и голосовым клонингом.
Voice cloning
Современные TTS позволяют синтезировать речь с конкретным голосом по короткому образцу (3–30 секунд). Используется в audiobooks, assistants, персонализированных системах.
GPU для TTS
XTTS v2 inference на GPU RTX 4090: синтез ~50–100 слов/сек. Для batch-генерации аудиокниг нужен GPU; для streaming TTS достаточно CPU.
Связанные термины
- ASR — обратная задача: аудио → текст
- speaker embedding — вектор голоса для голосового клонинга
- транскрипция — сопутствующая задача
Готовы запустить GPU-задачу?
Запустить GPU-сервер