# config.yaml storage: # Базовый путь для хранения моделей. # Если папки не существует, она будет создана. model_path: "./models" # Папка для записанных сэмплов голосов sample_dir: "./samples" # Папка для результатов синтеза (история) output_dir: "./out" models: # Идентификаторы моделей. # Логика: # 1. Если путь абсолютный (начинается с / или C:/) -> используется он. # 2. Иначе ищет в storage.model_path/. # 3. Если не находит -> качает с HuggingFace в storage.model_path/. base: "Qwen/Qwen3-TTS-12Hz-1.7B-Base" voice_design: "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign" custom_voice: "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice" generation: default_language: "Russian" default_speaker: "serena" device: "auto" dtype: "float16" # Настройки для VoiceDesign voice_design: # Тестовая фраза для предпрослушки голоса # Используется в пункте "3. Предпрослушка VoiceDesign" test_phrase: "Привет! Это тестовая фраза. Я готов помочь тебе с любой задачей. Как тебе мой новый голос?" # Альтернативные варианты (можно раскомментировать): # test_phrase: "Здравствуй! Меня зовут... ну, пока у меня нет имени. Но звучу я классно, правда?" # test_phrase: "Добрый день. Это короткая демонстрация синтезированной речи. Спасибо за внимание." recording: sample_rate: 16000 channels: 1 # Чувствительность тишины (0.0 - 1.0). # Чем меньше число, тем тише звук считается тишиной. silence_threshold: 0.015 # Длительность тишины в секундах для автоматической остановки silence_duration: 1.0 # Минимальная длительность записи (защита от случайного клика) min_duration: 2.0