---
title: TalkingAvater Bgk
emoji: ⚡
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app_optimized.py
pinned: false
---

# DittoTalkingHead - Talking Head Generation (Phase 3 最適化版)

音声とソース画像から、リアルなTalking Headビデオを生成します。

## 🚀 Phase 3 最適化機能
- **解像度320×320固定**: 処理速度を約50%向上
- **GPU最適化**: Mixed Precision、torch.compile対応
- **アバターキャッシュ**: 画像を事前アップロードして高速化
- **Cold Start最適化**: モデルロード時間を短縮

## 使い方

### Web UI
1. **音声ファイル**（WAV形式）をアップロード
2. **ソース画像**（PNG/JPG形式）をアップロード
3. **生成**ボタンをクリック

### API経由での使用

#### Python クライアント

```bash
pip install "gradio_client>=1.11.0"
```

```python
from gradio_client import Client, handle_file

client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
    audio_file=handle_file("path/to/audio.wav"),
    source_image=handle_file("path/to/image.png"),
    api_name="/process_talking_head"
)
```

#### 高度なクライアント（タイムスタンプ付き保存）

```python
from test_api_client import TalkingHeadAPIClient

client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
    audio_path="example/audio.wav",
    image_path="example/image.png"
)
```

### テストの実行

```bash
# 基本的なAPIテスト
python test_api.py

# カスタムテストクライアント
python test_api_client.py
```

## 技術仕様
- **モデル**: DittoTalkingHead (PyTorch版)
- **GPU**: NVIDIA A100推奨
- **初回実行時**: モデルのダウンロード（約2.5GB）
- **処理速度**: 16秒の音声を約15秒で処理（Phase 3最適化により50-65%高速化）

## ドキュメント
- 📁 **[APIドキュメント](docs/api/)** - リアルタイムを超える動画生成APIの全ドキュメント
  - 🚀 [統合ガイド](docs/api/integration_guide.md) - 完全なAPIインテグレーションガイド
  - ⚡ [クイックリファレンス](docs/api/quick_reference.md) - 5分で実装できるクイックスタート
  - 📝 [API仕様書](docs/api/documentation.md) - 詳細なAPI仕様とサンプルコード
  - 💻 [統合サンプル集](docs/api/integration_examples.py) - 実装例とベストプラクティス
- 📋 [Phase2実装仕様](ToDo/0717-2_Phase2_API_SOW.md) - API実装の詳細
- 🔧 [Phase3最適化ガイド](docs/phase3_optimization_guide.md) - パフォーマンス最適化の詳細

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference