Spaces:

Duplicated from O-ken5481/talkingAvater_bgk

Athagi
/

talkingAvater_bgk

Runtime error

App Files Files Community

talkingAvater_bgk / README.md

oKen38461's picture

Phase2クリア_README.mdにTalking Head生成の使い方と技術仕様を追加し、requirements.txtにgradioとgradio_clientのバージョンを指定しました。

910f2aa about 1 month ago

|

1.74 kB

metadata

title: TalkingAvater Bgk
emoji: ⚡
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app.py
pinned: false

DittoTalkingHead - Talking Head Generation

音声とソース画像から、リアルなTalking Headビデオを生成します。

使い方

Web UI

音声ファイル（WAV形式）をアップロード
ソース画像（PNG/JPG形式）をアップロード
生成ボタンをクリック

API経由での使用

Python クライアント

pip install "gradio_client>=1.11.0"

from gradio_client import Client, handle_file

client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
    audio_file=handle_file("path/to/audio.wav"),
    source_image=handle_file("path/to/image.png"),
    api_name="/process_talking_head"
)

高度なクライアント（タイムスタンプ付き保存）

from test_api_client import TalkingHeadAPIClient

client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
    audio_path="example/audio.wav",
    image_path="example/image.png"
)

テストの実行

# 基本的なAPIテスト
python test_api.py

# カスタムテストクライアント
python test_api_client.py

技術仕様

モデル: DittoTalkingHead (PyTorch版)
GPU: NVIDIA A100推奨
初回実行時: モデルのダウンロード（約2.5GB）

ドキュメント

APIドキュメント - 詳細なAPI仕様とサンプルコード
Phase2実装仕様 - API実装の詳細

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference