Spaces:
Running
Running
| import pytest | |
| from scipy.io import wavfile | |
| from style_bert_vits2.constants import BASE_DIR, Languages | |
| from style_bert_vits2.tts_model import TTSModelHolder | |
| def synthesize(device: str = "cpu"): | |
| # 音声合成モデルが配置されていれば、音声合成を実行 | |
| model_holder = TTSModelHolder(BASE_DIR / "model_assets", device) | |
| if len(model_holder.models_info) > 0: | |
| # jvnv-F2-jp モデルを探す | |
| for model_info in model_holder.models_info: | |
| if model_info.name == "jvnv-F2-jp": | |
| # すべてのスタイルに対して音声合成を実行 | |
| for style in model_info.styles: | |
| # 音声合成を実行 | |
| model = model_holder.get_model(model_info.name, model_info.files[0]) | |
| model.load() | |
| sample_rate, audio_data = model.infer( | |
| "あらゆる現実を、すべて自分のほうへねじ曲げたのだ。", | |
| # 言語 (JP, EN, ZH / JP-Extra モデルの場合は JP のみ) | |
| language=Languages.JP, | |
| # 話者 ID (音声合成モデルに複数の話者が含まれる場合のみ必須、単一話者のみの場合は 0) | |
| speaker_id=0, | |
| # 感情表現の強さ (0.0 〜 1.0) | |
| sdp_ratio=0.4, | |
| # スタイル (Neutral, Happy など) | |
| style=style, | |
| # スタイルの強さ (0.0 〜 100.0) | |
| style_weight=6.0, | |
| ) | |
| # 音声データを保存 | |
| (BASE_DIR / "tests/wavs").mkdir(exist_ok=True, parents=True) | |
| wav_file_path = BASE_DIR / f"tests/wavs/{style}.wav" | |
| with open(wav_file_path, "wb") as f: | |
| wavfile.write(f, sample_rate, audio_data) | |
| # 音声データが保存されたことを確認 | |
| assert wav_file_path.exists() | |
| # wav_file_path.unlink() | |
| else: | |
| pytest.skip("音声合成モデルが見つかりませんでした。") | |
| def test_synthesize_cpu(): | |
| synthesize(device="cpu") | |
| # Windows環境ではtorchのcudaが簡単に入らないため、テストをスキップ | |
| # def test_synthesize_cuda(): | |
| # synthesize(device="cuda") | |