talkingAvater_bgk / README.md
oKen38461's picture
Phase2クリア_README.mdにTalking Head生成の使い方と技術仕様を追加し、requirements.txtにgradioとgradio_clientのバージョンを指定しました。
910f2aa
|
raw
history blame
1.74 kB
metadata
title: TalkingAvater Bgk
emoji: 
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app.py
pinned: false

DittoTalkingHead - Talking Head Generation

音声とソース画像から、リアルなTalking Headビデオを生成します。

使い方

Web UI

  1. 音声ファイル(WAV形式)をアップロード
  2. ソース画像(PNG/JPG形式)をアップロード
  3. 生成ボタンをクリック

API経由での使用

Python クライアント

pip install "gradio_client>=1.11.0"
from gradio_client import Client, handle_file

client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
    audio_file=handle_file("path/to/audio.wav"),
    source_image=handle_file("path/to/image.png"),
    api_name="/process_talking_head"
)

高度なクライアント(タイムスタンプ付き保存)

from test_api_client import TalkingHeadAPIClient

client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
    audio_path="example/audio.wav",
    image_path="example/image.png"
)

テストの実行

# 基本的なAPIテスト
python test_api.py

# カスタムテストクライアント
python test_api_client.py

技術仕様

  • モデル: DittoTalkingHead (PyTorch版)
  • GPU: NVIDIA A100推奨
  • 初回実行時: モデルのダウンロード(約2.5GB)

ドキュメント

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference