talkingAvater_bgk

Runtime error

App Files Files Community

oKen38461 commited on Jul 17

Commit

ada2c6f

1 Parent(s): 910f2aa

app.pyに新しい機能を追加し、サンプルファイルの読み込み処理を改善しました。また、`requirements.txt`に新たに依存関係を追加しました。

Browse files

Files changed (2) hide show

README_jp.md +124 -0
test_performance.py +175 -0

README_jp.md ADDED Viewed

	@@ -0,0 +1,124 @@

+# DittoTalkingHead プロジェクト
+## プロジェクト概要
+このリポジトリは、音声から自然なトーキングヘッド動画を生成するDittoモデルの実装と、そのAPI化を行うプロジェクトです。単一の画像と音声ファイルから、音声に同期した自然な表情や口の動きを持つ動画を生成します。
+## 作業フロー
+本プロジェクトは、Statement of Work (SOW) ドキュメントを作成してから実装を行う段階的なアプローチを採用しています。
+### フェーズ構成
+1. **Phase 1**: 基本実装 - Hugging Face Spacesへのデプロイ
+2. **Phase 2**: API実装 - REST API化とクライアント実装
+3. **Phase 3**: パフォーマンス最適化 - 処理速度の大幅改善
+## ディレクトリ構造
+### `/` ルートディレクトリ
+- `README.md` - Hugging Face Spaces用のメタデータ付きREADME
+- `README_jp.md` - 日本語プロジェクト説明（このファイル）
+- `README_ditto-talkinghead.md` - Dittoモデルの技術詳細
+- `README_hf_space.md` - Hugging Face Spacesデプロイメント説明
+- `app.py` - Gradio Webアプリケーションのメインファイル
+- `inference.py` - モデル推論の実装
+- `model_manager.py` - モデルファイルの管理・ダウンロード
+- `test_api.py` - API機能のテストスクリプト
+- `test_api_client.py` - APIクライアントの実装
+- `test_performance.py` - パフォーマンステストツール
+- `requirements.txt` - Python依存関係
+- `environment.yaml` - Conda環境設定
+- `packages.txt` - システムパッケージ依存関係
+### `/ToDo` 計画ドキュメント
+- `plan-v0.md` - 初期調査報告と実装計画
+- `0717-1_Phase1_SOW_revised.md` - Phase 1 実装仕様書（基本実装）
+- `0717-2_Phase2_API_SOW.md` - Phase 2 実装仕様書（API化）
+- `0717-3_Phase3_Performance_SOW.md` - Phase 3 実装仕様書（高速化）
+### `/core` コアモデル実装
+- `/atomic_components` - モデルの基本コンポーネント
+  - `audio2motion.py` - 音声から動きへの変換
+  - `avatar_registrar.py` - アバター登録処理
+  - `wav2feat.py` - 音声特徴抽出
+  - `warp_f3d.py` - 3D特徴のワーピング
+  - 他多数の処理モジュール
+- `/aux_models` - 補助モデル（顔検出、ランドマーク検出等）
+  - `face_mesh.py` - 顔メッシュ検出
+  - `hubert_stream.py` - HuBERT音声モデル
+  - `mediapipe_landmark478.py` - MediaPipeランドマーク
+- `/models` - メインモデル実装
+  - `appearance_extractor.py` - 外観特徴抽出
+  - `decoder.py` - デコーダー
+  - `lmdm.py` - ランドマーク拡散モデル
+  - `/modules` - モデルモジュール群
+- `/utils` - ユーティリティ関数
+  - `crop.py` - 画像クロップ処理
+  - `load_model.py` - モデルロード
+  - `tensorrt_utils.py` - TensorRT最適化
+### `/docs` ドキュメント
+- `APIドキュメント.md` - API仕様書（日本語）
+- `api_documentation.md` - API仕様書（英語）
+- `deployment_guide.md` - デプロイメントガイド
+- `model_upload_guide.md` - モデルアップロードガイド
+### `/example` サンプルファイル
+- `audio.wav` - サンプル音声
+- `image.png` - サンプル画像
+- `2025-07-17_22-12-46.mp4` - 生成サンプル動画
+### `/scripts` ユーティリティスクリプト
+- `cvt_onnx_to_trt.py` - ONNXからTensorRTへの変換
+### `/stream_pipeline_*` リアルタイム処理
+- `stream_pipeline_online.py` - オンラインストリーミング処理
+- `stream_pipeline_offline.py` - オフライン処理
+## 主要な機能
+### 1. 基本的な動画生成
+- 音声ファイル（WAV）とソース画像（PNG/JPG）から動画生成
+- 自然な口の動きと表情の同期
+- 高品質な動画出力
+### 2. API機能
+- REST APIエンドポイント（`/process_talking_head`）
+- 画像の事前アップロード機能（`/prepare_avatar`）
+- 非同期処理とキャッシュサポート
+### 3. パフォーマンス最適化（Phase 3で実装予定）
+- 解像度320×320固定による高速化
+- 画像埋め込みの事前計算とキャッシュ
+- TensorRT/ONNX最適化
+- 目標: 16秒の音声を10秒以内で処理
+## 使用方法
+### Web UI経由
+1. Hugging Face Spaces（https://huggingface.co/spaces/O-ken5481/talkingAvater_bgk）にアクセス
+2. 音声ファイルと画像をアップロード
+3. 「生成」ボタンをクリック
+### API経由
+```python
+from gradio_client import Client, handle_file
+client = Client("O-ken5481/talkingAvater_bgk")
+result = client.predict(
+    audio_file=handle_file("path/to/audio.wav"),
+    source_image=handle_file("path/to/image.png"),
+    api_name="/process_talking_head"
+)
+```
+## 技術スタック
+- **モデル**: Ditto TalkingHead（Ant Group Research）
+- **フレームワーク**: PyTorch, ONNX Runtime, TensorRT
+- **WebUI**: Gradio
+- **インフラ**: Hugging Face Spaces（GPU: A100）
+- **補助モデル**: HuBERT（音声特徴）、MediaPipe（顔ランドマーク）
+## 今後の展開
+- Phase 3の高速化実装（TensorRT最適化、キャッシュシステム）
+- リアルタイムストリーミング対応
+- 複数話者の対応
+- より高解像度での生成オプション

test_performance.py ADDED Viewed

	@@ -0,0 +1,175 @@

+#!/usr/bin/env python3
+"""
+パフォーマンステストスクリプト
+動画生成の各ステップの実行時間を計測
+"""
+import time
+import logging
+from test_api_client import TalkingHeadAPIClient
+import os
+# ロギング設定
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(message)s',
+    datefmt='%Y-%m-%d %H:%M:%S'
+)
+class TimingStats:
+    def __init__(self):
+        self.stats = {}
+        self.start_times = {}
+    def start(self, name):
+        self.start_times[name] = time.time()
+    def end(self, name):
+        if name in self.start_times:
+            duration = time.time() - self.start_times[name]
+            self.stats[name] = duration
+            return duration
+        return None
+    def report(self):
+        print("\n=== パフォーマンス計測結果 ===")
+        total_time = sum(self.stats.values())
+        for name, duration in self.stats.items():
+            percentage = (duration / total_time) * 100 if total_time > 0 else 0
+            print(f"{name}: {duration:.2f}秒 ({percentage:.1f}%)")
+        print(f"\n合計時間: {total_time:.2f}秒")
+        # 音声ファイルの長さを取得
+        try:
+            import librosa
+            audio_path = "example/audio.wav"
+            y, sr = librosa.load(audio_path, sr=None)
+            audio_duration = len(y) / sr
+            print(f"音声ファイルの長さ: {audio_duration:.2f}秒")
+            print(f"処理時間比率: {total_time/audio_duration:.2f}x")
+        except Exception as e:
+            print(f"音声長さの取得失敗: {e}")
+def test_performance():
+    """パフォーマンステストを実行"""
+    timer = TimingStats()
+    # 全体の開始時間
+    timer.start("全体処理")
+    # クライアント初期化
+    timer.start("API接続")
+    try:
+        client = TalkingHeadAPIClient()
+        timer.end("API接続")
+    except Exception as e:
+        logging.error(f"クライアント初期化失敗: {e}")
+        return
+    # サンプルファイル
+    audio_path = "example/audio.wav"
+    image_path = "example/image.png"
+    # ファイル情報を表示
+    audio_size = os.path.getsize(audio_path) / 1024 / 1024  # MB
+    image_size = os.path.getsize(image_path) / 1024 / 1024  # MB
+    print(f"\n入力ファイル情報:")
+    print(f"- 音声: {audio_path} ({audio_size:.2f} MB)")
+    print(f"- 画像: {image_path} ({image_size:.2f} MB)")
+    # 動画生成
+    timer.start("動画生成（API呼び出し）")
+    try:
+        result = client.generate_video(audio_path, image_path)
+        video_data, status = result
+        timer.end("動画生成（API呼び出し）")
+        if video_data:
+            # 保存処理
+            timer.start("動画保存")
+            if isinstance(video_data, dict) and 'video' in video_data:
+                saved_path = client.save_with_timestamp(video_data['video'])
+                timer.end("動画保存")
+                # 出力ファイル情報
+                output_size = os.path.getsize(saved_path) / 1024 / 1024  # MB
+                print(f"\n出力ファイル情報:")
+                print(f"- 動画: {saved_path} ({output_size:.2f} MB)")
+            timer.end("全体処理")
+            timer.report()
+            print(f"\n✅ テスト成功!")
+            print(f"ステータス: {status}")
+        else:
+            print(f"\n❌ テスト失敗")
+            print(f"ステータス: {status}")
+    except Exception as e:
+        logging.error(f"エラー発生: {e}")
+        import traceback
+        traceback.print_exc()
+def test_multiple_runs(runs=3):
+    """複数回実行して平均時間を計測"""
+    print(f"\n=== {runs}回連続実行テスト ===")
+    times = []
+    for i in range(runs):
+        print(f"\n--- 実行 {i+1}/{runs} ---")
+        start = time.time()
+        try:
+            client = TalkingHeadAPIClient()
+            result = client.generate_video("example/audio.wav", "example/image.png")
+            if result[0]:
+                duration = time.time() - start
+                times.append(duration)
+                print(f"実行時間: {duration:.2f}秒")
+        except Exception as e:
+            print(f"エラー: {e}")
+    if times:
+        avg_time = sum(times) / len(times)
+        min_time = min(times)
+        max_time = max(times)
+        print(f"\n=== 統計 ===")
+        print(f"平均時間: {avg_time:.2f}秒")
+        print(f"最小時間: {min_time:.2f}秒")
+        print(f"最大時間: {max_time:.2f}秒")
+def analyze_bottlenecks():
+    """ボトルネック分析のための詳細テスト"""
+    print("\n=== ボトルネック分析 ===")
+    # ローカルファイルの読み込み時間
+    start = time.time()
+    with open("example/audio.wav", "rb") as f:
+        audio_data = f.read()
+    with open("example/image.png", "rb") as f:
+        image_data = f.read()
+    local_read_time = time.time() - start
+    print(f"ローカルファイル読み込み: {local_read_time:.3f}秒")
+    # ネットワーク遅延の推定（Hugging Face Spaceへのping相当）
+    import requests
+    start = time.time()
+    try:
+        response = requests.get("https://o-ken5481-talkingavater-bgk.hf.space", timeout=10)
+        network_time = time.time() - start
+        print(f"ネットワーク遅延（推定）: {network_time:.3f}秒")
+    except:
+        print("ネットワーク遅延の測定失敗")
+if __name__ == "__main__":
+    print("DittoTalkingHead パフォーマンステスト")
+    print("=" * 50)
+    # 1. 詳細な時間計測
+    test_performance()
+    # 2. 複数回実行テスト
+    # test_multiple_runs(3)
+    # 3. ボトルネック分析
+    analyze_bottlenecks()