aiTTS/config.yaml

# config.yaml
storage:
  # Базовый путь для хранения моделей.
  # Если папки не существует, она будет создана.
  model_path: "./models"

  # Папка для записанных сэмплов голосов
  sample_dir: "./samples"

  # Папка для результатов синтеза (история)
  output_dir: "./out"

models:
  # Идентификаторы моделей.
  # Логика:
  # 1. Если путь абсолютный (начинается с / или C:/) -> используется он.
  # 2. Иначе ищет в storage.model_path/<name>.
  # 3. Если не находит -> качает с HuggingFace в storage.model_path/<name>.
  base: "Qwen/Qwen3-TTS-12Hz-1.7B-Base"
  voice_design: "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign"
  custom_voice: "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice"

generation:
  default_language: "Russian"
  default_speaker: "serena"
  device: "auto"
  dtype: "float16"

# Настройки для VoiceDesign
voice_design:
  # Тестовая фраза для предпрослушки голоса
  # Используется в пункте "3. Предпрослушка VoiceDesign"
  test_phrase: "Привет! Это тестовая фраза. Я готов помочь тебе с любой задачей. Как тебе мой новый голос?"

  # Альтернативные варианты (можно раскомментировать):
  # test_phrase: "Здравствуй! Меня зовут... ну, пока у меня нет имени. Но звучу я классно, правда?"
  # test_phrase: "Добрый день. Это короткая демонстрация синтезированной речи. Спасибо за внимание."

recording:
  sample_rate: 16000
  channels: 1
  # Чувствительность тишины (0.0 - 1.0).
  # Чем меньше число, тем тише звук считается тишиной.
  silence_threshold: 0.015
  # Длительность тишины в секундах для автоматической остановки
  silence_duration: 1.0
  # Минимальная длительность записи (защита от случайного клика)
  min_duration: 2.0