--- title: TalkingAvater Bgk emoji: ⚡ colorFrom: red colorTo: purple sdk: gradio sdk_version: 5.38.0 app_file: app_optimized.py pinned: false --- # DittoTalkingHead - Talking Head Generation (Phase 3 最適化版) 音声とソース画像から、リアルなTalking Headビデオを生成します。 ## 🚀 Phase 3 最適化機能 - **解像度320×320固定**: 処理速度を約50%向上 - **GPU最適化**: Mixed Precision、torch.compile対応 - **アバターキャッシュ**: 画像を事前アップロードして高速化 - **Cold Start最適化**: モデルロード時間を短縮 ## 使い方 ### Web UI 1. **音声ファイル**(WAV形式)をアップロード 2. **ソース画像**(PNG/JPG形式)をアップロード 3. **生成**ボタンをクリック ### API経由での使用 #### Python クライアント ```bash pip install "gradio_client>=1.11.0" ``` ```python from gradio_client import Client, handle_file client = Client("O-ken5481/talkingAvater_bgk") result = client.predict( audio_file=handle_file("path/to/audio.wav"), source_image=handle_file("path/to/image.png"), api_name="/process_talking_head" ) ``` #### 高度なクライアント(タイムスタンプ付き保存) ```python from test_api_client import TalkingHeadAPIClient client = TalkingHeadAPIClient() saved_path, status = client.process_with_save( audio_path="example/audio.wav", image_path="example/image.png" ) ``` ### テストの実行 ```bash # 基本的なAPIテスト python test_api.py # カスタムテストクライアント python test_api_client.py ``` ## 技術仕様 - **モデル**: DittoTalkingHead (PyTorch版) - **GPU**: NVIDIA A100推奨 - **初回実行時**: モデルのダウンロード(約2.5GB) - **処理速度**: 16秒の音声を約15秒で処理(Phase 3最適化により50-65%高速化) ## ドキュメント - 📁 **[APIドキュメント](docs/api/)** - リアルタイムを超える動画生成APIの全ドキュメント - 🚀 [統合ガイド](docs/api/integration_guide.md) - 完全なAPIインテグレーションガイド - ⚡ [クイックリファレンス](docs/api/quick_reference.md) - 5分で実装できるクイックスタート - 📝 [API仕様書](docs/api/documentation.md) - 詳細なAPI仕様とサンプルコード - 💻 [統合サンプル集](docs/api/integration_examples.py) - 実装例とベストプラクティス - 📋 [Phase2実装仕様](ToDo/0717-2_Phase2_API_SOW.md) - API実装の詳細 - 🔧 [Phase3最適化ガイド](docs/phase3_optimization_guide.md) - パフォーマンス最適化の詳細 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference