-
Notifications
You must be signed in to change notification settings - Fork 5
TTS
root edited this page Feb 24, 2026
·
3 revisions
Настройка голосов, параметров синтеза и тестирование TTS.

Высококачественное клонирование голоса на GPU:
| Голос | Описание | Требования |
|---|---|---|
| Анна | Женский голос, дружелюбный | CUDA GPU |
| Марина | Женский голос, профессиональный | CUDA GPU |
Быстрый синтез на CPU с предобученными голосами:
| Голос | Описание | Язык |
|---|---|---|
| Дмитрий | Мужской голос, medium quality | Русский |
| Ирина | Женский голос, medium quality | Русский |
- Выберите движок (XTTS или Piper)
- Выберите голос из списка
- Нажмите "Применить"
Текущий голос отображается в заголовке секции.
| Параметр | Описание | Диапазон | По умолчанию |
|---|---|---|---|
| Speed | Скорость речи | 0.5 - 2.0 | 1.0 |
| Temperature | Вариативность | 0.1 - 1.0 | 0.7 |
| Top K | Sampling | 1 - 100 | 50 |
| Top P | Nucleus sampling | 0.0 - 1.0 | 0.85 |
| Repetition Penalty | Штраф за повторы | 1.0 - 2.0 | 1.0 |
| Length Penalty | Штраф за длину | 0.5 - 2.0 | 1.0 |
Workspace-фильтрация: Пользовательские пресеты фильтруются по
workspace_idиз JWT. Встроенные (builtin) пресеты доступны во всех workspace.
- Настройте параметры
- Нажмите "Сохранить как пресет"
- Введите название
- Пресет появится в списке
- Загрузить — применить параметры пресета
- Обновить — сохранить текущие параметры в пресет
- Удалить — удалить пресет
| Пресет | Описание |
|---|---|
| Default | Сбалансированные настройки |
| Fast | Быстрый синтез, меньше качество |
| Quality | Высокое качество, медленнее |
| Expressive | Эмоциональная речь |
- Введите текст в поле
- Нажмите "Синтезировать"
- Прослушайте результат
- Скачайте аудио при необходимости
- Статус кэша — показывает количество закэшированных фраз
- Очистить кэш — удалить все закэшированные аудио
- Кэширование ускоряет повторный синтез одинаковых фраз
Для телефонии и реального времени доступны стриминговые эндпоинты:
POST /admin/tts/stream — HTTP chunked streaming
WS /admin/tts/ws/stream — WebSocket streaming
Целевая задержка: <500ms до первого аудио.