Speech

TTS

Text-to-Speech — синтез речи, преобразование текста в звуковую волну.

Что такое TTS

TTS (Text-to-Speech, синтез речи) — задача преобразования текста в аудио с естественно звучащей речью. Современные TTS-системы на основе нейросетей создают речь, практически неотличимую от человеческой.

Архитектуры TTS

Cascade TTS (классический подход):

  1. Text normalization: "ООО «ЦТК»" → "общество с ограниченной ответственностью ЦТК"
  2. G2P (Grapheme-to-Phoneme): текст → фонемы
  3. Acoustic model: фонемы → mel-spectrogram
  4. Vocoder: mel-spectrogram → аудиоволна

End-to-end TTS (современный): модель напрямую из текста в аудио.

Популярные TTS-модели

Coqui TTS / XTTS: open-source, поддерживает многоязычный голосовой клонинг (zero-shot voice cloning). Хорошее качество для русского:

from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

tts.tts_to_file(
    text="Привет! Это синтезированная речь.",
    speaker_wav="reference_voice.wav",  # Образец голоса (3–10 сек)
    language="ru",
    file_path="output.wav"
)

Silero TTS: лёгкая и быстрая русскоязычная TTS. Хорошее качество, работает на CPU.

ElevenLabs, OpenAI TTS: облачные API с высочайшим качеством и голосовым клонингом.

Voice cloning

Современные TTS позволяют синтезировать речь с конкретным голосом по короткому образцу (3–30 секунд). Используется в audiobooks, assistants, персонализированных системах.

GPU для TTS

XTTS v2 inference на GPU RTX 4090: синтез ~50–100 слов/сек. Для batch-генерации аудиокниг нужен GPU; для streaming TTS достаточно CPU.

Связанные термины

  • ASR — обратная задача: аудио → текст
  • speaker embedding — вектор голоса для голосового клонинга
  • транскрипция — сопутствующая задача

Готовы запустить GPU-задачу?

Запустить GPU-сервер