Files
aiTTS/config.yaml

49 lines
2.3 KiB
YAML
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# config.yaml
storage:
# Базовый путь для хранения моделей.
# Если папки не существует, она будет создана.
model_path: "./models"
# Папка для записанных сэмплов голосов
sample_dir: "./samples"
# Папка для результатов синтеза (история)
output_dir: "./out"
models:
# Идентификаторы моделей.
# Логика:
# 1. Если путь абсолютный (начинается с / или C:/) -> используется он.
# 2. Иначе ищет в storage.model_path/<name>.
# 3. Если не находит -> качает с HuggingFace в storage.model_path/<name>.
base: "Qwen/Qwen3-TTS-12Hz-1.7B-Base"
voice_design: "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign"
custom_voice: "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice"
generation:
default_language: "Russian"
default_speaker: "serena"
device: "auto"
dtype: "float16"
# Настройки для VoiceDesign
voice_design:
# Тестовая фраза для предпрослушки голоса
# Используется в пункте "3. Предпрослушка VoiceDesign"
test_phrase: "Привет! Это тестовая фраза. Я готов помочь тебе с любой задачей. Как тебе мой новый голос?"
# Альтернативные варианты (можно раскомментировать):
# test_phrase: "Здравствуй! Меня зовут... ну, пока у меня нет имени. Но звучу я классно, правда?"
# test_phrase: "Добрый день. Это короткая демонстрация синтезированной речи. Спасибо за внимание."
recording:
sample_rate: 16000
channels: 1
# Чувствительность тишины (0.0 - 1.0).
# Чем меньше число, тем тише звук считается тишиной.
silence_threshold: 0.015
# Длительность тишины в секундах для автоматической остановки
silence_duration: 1.0
# Минимальная длительность записи (защита от случайного клика)
min_duration: 2.0