Spaces:

bravedims
/

AI_Avatar_Chat

Running

bravedims commited on 27 days ago

Commit

25f97c0

1 Parent(s): efb1c49

Add static file serving and return video URLs instead of file paths

🔗 Feature: API now returns complete URLs for generated videos

✅ Changes:
- Add FastAPI StaticFiles support to serve generated videos
- Mount /outputs directory as static files endpoint
- Add get_video_url() function to convert file paths to URLs
- Update API response to return URLs instead of local paths
- Update Gradio interface to also return accessible URLs

🌐 URL Format:
- Base: https://bravedims-ai-avatar-chat.hf.space
- Videos: https://bravedims-ai-avatar-chat.hf.space/outputs/filename.mp4

✅ Benefits:
- Videos directly accessible via URL
- No need to download files manually
- Easy to embed in web pages or share
- Works with video players and browsers
- RESTful API design with proper resource URLs

📝 Example Response:
{
'message': 'Avatar generation completed successfully',
'output_path': 'https://bravedims-ai-avatar-chat.hf.space/outputs/avatar_output_000.mp4',
'processing_time': 2.3,
'audio_generated': true
}

Files changed (1) hide show

app.py +48 -54

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import torch
 import tempfile
 import gradio as gr
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
 import subprocess
@@ -17,7 +18,6 @@ from typing import Optional
 import aiohttp
 import asyncio
 from dotenv import load_dotenv
-from minimal_tts_client import MinimalTTSClient
 # Load environment variables
 load_dotenv()
@@ -26,7 +26,7 @@ load_dotenv()
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-app = FastAPI(title="OmniAvatar-14B API with HuggingFace TTS", version="1.0.0")
 # Add CORS middleware
 app.add_middleware(
@@ -37,12 +37,30 @@ app.add_middleware(
     allow_headers=["*"],
 )
 # Pydantic models for request/response
 class GenerateRequest(BaseModel):
     prompt: str
     text_to_speech: Optional[str] = None  # Text to convert to speech
-    audio_url: Optional[HttpUrl] = None  # Direct audio URL
-    voice_id: Optional[str] = "21m00Tcm4TlvDq8ikWAM"  # Voice ID (mapped to HF speaker embeddings)
     image_url: Optional[HttpUrl] = None
     guidance_scale: float = 5.0
     audio_scale: float = 3.0
@@ -58,9 +76,7 @@ class GenerateResponse(BaseModel):
 class ElevenLabsClient:
     def __init__(self, api_key: str = None):
-        self.api_key = api_key or os.getenv("ELEVENLABS_API_KEY")
-        if not self.api_key:
-            logger.warning("No ElevenLabs API key found. Text-to-speech will not work.")
         self.base_url = "https://api.elevenlabs.io/v1"
     async def text_to_speech(self, text: str, voice_id: str = "21m00Tcm4TlvDq8ikWAM") -> str:
@@ -87,10 +103,6 @@ class ElevenLabsClient:
                 async with session.post(url, headers=headers, json=data) as response:
                     if response.status != 200:
                         error_text = await response.text()
-                        logger.error(f"ElevenLabs API Error - Status: {response.status}")
-                        logger.error(f"ElevenLabs API Error - Response: {error_text}")
-                        logger.error(f"ElevenLabs API Error - URL: {url}")
-                        logger.error(f"ElevenLabs API Error - Headers: {headers}")
                         raise HTTPException(
                             status_code=400,
                             detail=f"ElevenLabs API error: {response.status} - {error_text}"
@@ -110,19 +122,16 @@ class ElevenLabsClient:
             logger.error(f"Network error calling ElevenLabs: {e}")
             raise HTTPException(status_code=400, detail=f"Network error calling ElevenLabs: {e}")
         except Exception as e:
-            logger.error(f"Error generating speech: {str(e)}")
-            logger.error(f"Exception type: {type(e).__name__}")
-            import traceback
-            logger.error(f"Traceback: {traceback.format_exc()}")
             raise HTTPException(status_code=500, detail=f"Error generating speech: {e}")
 class OmniAvatarAPI:
     def __init__(self):
         self.model_loaded = False
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
-        self.tts_client = MinimalTTSClient()
         logger.info(f"Using device: {self.device}")
-        logger.info("Using HuggingFace TTS (SpeechT5) - No API key required")
     def load_model(self):
         """Load the OmniAvatar model"""
@@ -178,9 +187,9 @@ class OmniAvatarAPI:
             # Check for common audio file extensions or ElevenLabs patterns
             audio_extensions = ['.mp3', '.wav', '.m4a', '.ogg', '.aac']
             is_audio_ext = any(parsed.path.lower().endswith(ext) for ext in audio_extensions)
-            is_audio_service = any(domain in parsed.netloc.lower() for domain in ["soundcloud", "audio", "mp3", "wav"])
-            return is_audio_ext or is_audio_service or 'audio' in url.lower()
         except:
             return False
@@ -204,31 +213,26 @@ class OmniAvatarAPI:
             audio_path = None
             if request.text_to_speech:
-                # Generate speech from text using HuggingFace TTS
-                voice_id = request.voice_id or "21m00Tcm4TlvDq8ikWAM"
                 logger.info(f"Generating speech from text: {request.text_to_speech[:50]}...")
-                logger.info(f"Using voice ID: {voice_id}")
-                # HuggingFace TTS - no API key needed, always available
-                audio_path = await self.tts_client.text_to_speech(
                     request.text_to_speech,
-                    voice_id
                 )
                 audio_generated = True
-            elif request.audio_url:
                 # Download audio from provided URL
-                logger.info(f"Downloading audio from URL: {request.audio_url}")
-                if not self.validate_audio_url(str(request.audio_url)):
-                    logger.warning(f"Audio URL may not be valid: {request.audio_url}")
-                audio_path = await self.download_file(str(request.audio_url), ".mp3")
             else:
                 raise HTTPException(
                     status_code=400,
-                    detail="Either text_to_speech or audio_url must be provided"
                 )
             # Download image if provided
@@ -327,10 +331,10 @@ async def health_check():
         "status": "healthy",
         "model_loaded": omni_api.model_loaded,
         "device": omni_api.device,
-        "supports_tts": True,
         "supports_image_urls": True,
         "supports_text_to_speech": True,
-        "tts_configured": True, "tts_provider": "huggingface"
     }
 @app.post("/generate", response_model=GenerateResponse)
@@ -344,8 +348,8 @@ async def generate_avatar(request: GenerateRequest):
     if request.text_to_speech:
         logger.info(f"Text to speech: {request.text_to_speech[:100]}...")
         logger.info(f"Voice ID: {request.voice_id}")
-    if request.audio_url:
-        logger.info(f"Audio URL: {request.audio_url}")
     if request.image_url:
         logger.info(f"Image URL: {request.image_url}")
@@ -354,7 +358,7 @@ async def generate_avatar(request: GenerateRequest):
         return GenerateResponse(
             message="Avatar generation completed successfully",
-            output_path=output_path,
             processing_time=processing_time,
             audio_generated=audio_generated
         )
@@ -385,7 +389,7 @@ def gradio_generate(prompt, text_to_speech, audio_url, image_url, voice_id, guid
             request_data["text_to_speech"] = text_to_speech
             request_data["voice_id"] = voice_id or "21m00Tcm4TlvDq8ikWAM"
         elif audio_url and audio_url.strip():
-            request_data["audio_url"] = audio_url
         else:
             return "Error: Please provide either text to speech or audio URL"
@@ -417,13 +421,13 @@ iface = gr.Interface(
         ),
         gr.Textbox(
             label="Text to Speech",
-            placeholder="Enter text to convert to speech using HuggingFace TTS",
             lines=3,
             info="This will be converted to speech automatically"
         ),
         gr.Textbox(
             label="OR Audio URL",
-            placeholder="https://example.com/audio.mp3",
             info="Direct URL to audio file (alternative to text-to-speech)"
         ),
         gr.Textbox(
@@ -434,7 +438,7 @@ iface = gr.Interface(
         gr.Dropdown(
             choices=["21m00Tcm4TlvDq8ikWAM", "pNInz6obpgDQGcFmaJgB", "EXAVITQu4vr4xnSDxMaL"],
             value="21m00Tcm4TlvDq8ikWAM",
-            label="Voice ID",
             info="Choose voice for text-to-speech"
         ),
         gr.Slider(minimum=1, maximum=10, value=5.0, label="Guidance Scale", info="4-6 recommended"),
@@ -442,13 +446,13 @@ iface = gr.Interface(
         gr.Slider(minimum=10, maximum=100, value=30, step=1, label="Number of Steps", info="20-50 recommended")
     ],
     outputs=gr.Video(label="Generated Avatar Video"),
-    title="🎭 OmniAvatar-14B with HuggingFace TTS",
     description="""
     Generate avatar videos with lip-sync from text prompts and speech.
     **Features:**
     - ✅ **Text-to-Speech**: Enter text to generate speech automatically
-    - ✅ **HuggingFace TTS**: Free, open-source voice synthesis
     - ✅ **Audio URL Support**: Use pre-generated audio files
     - ✅ **Image URL Support**: Reference images for character appearance
     - ✅ **Customizable Parameters**: Fine-tune generation quality
@@ -496,13 +500,3 @@ if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

 import tempfile
 import gradio as gr
 from fastapi import FastAPI, HTTPException
+from fastapi.staticfiles import StaticFiles
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
 import subprocess
 import aiohttp
 import asyncio
 from dotenv import load_dotenv
 # Load environment variables
 load_dotenv()
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+app = FastAPI(title="OmniAvatar-14B API with ElevenLabs", version="1.0.0")
 # Add CORS middleware
 app.add_middleware(
     allow_headers=["*"],
 )
+# Mount static files for serving generated videos
+app.mount("/outputs", StaticFiles(directory="outputs"), name="outputs")
+def get_video_url(output_path: str) -> str:
+    """Convert local file path to accessible URL"""
+    try:
+        from pathlib import Path
+        filename = Path(output_path).name
+        # For HuggingFace Spaces, construct the URL
+        base_url = "https://bravedims-ai-avatar-chat.hf.space"
+        video_url = f"{base_url}/outputs/{filename}"
+        logger.info(f"Generated video URL: {video_url}")
+        return video_url
+    except Exception as e:
+        logger.error(f"Error creating video URL: {e}")
+        return output_path  # Fallback to original path
 # Pydantic models for request/response
 class GenerateRequest(BaseModel):
     prompt: str
     text_to_speech: Optional[str] = None  # Text to convert to speech
+    elevenlabs_audio_url: Optional[HttpUrl] = None  # Direct audio URL
+    voice_id: Optional[str] = "21m00Tcm4TlvDq8ikWAM"  # Default ElevenLabs voice
     image_url: Optional[HttpUrl] = None
     guidance_scale: float = 5.0
     audio_scale: float = 3.0
 class ElevenLabsClient:
     def __init__(self, api_key: str = None):
+        self.api_key = api_key or os.getenv("ELEVENLABS_API_KEY", "sk_c7a0b115cd48fc026226158c5ac87755b063c802ad892de6")
         self.base_url = "https://api.elevenlabs.io/v1"
     async def text_to_speech(self, text: str, voice_id: str = "21m00Tcm4TlvDq8ikWAM") -> str:
                 async with session.post(url, headers=headers, json=data) as response:
                     if response.status != 200:
                         error_text = await response.text()
                         raise HTTPException(
                             status_code=400,
                             detail=f"ElevenLabs API error: {response.status} - {error_text}"
             logger.error(f"Network error calling ElevenLabs: {e}")
             raise HTTPException(status_code=400, detail=f"Network error calling ElevenLabs: {e}")
         except Exception as e:
+            logger.error(f"Error generating speech: {e}")
             raise HTTPException(status_code=500, detail=f"Error generating speech: {e}")
 class OmniAvatarAPI:
     def __init__(self):
         self.model_loaded = False
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.elevenlabs_client = ElevenLabsClient()
         logger.info(f"Using device: {self.device}")
+        logger.info(f"ElevenLabs API Key configured: {'Yes' if self.elevenlabs_client.api_key else 'No'}")
     def load_model(self):
         """Load the OmniAvatar model"""
             # Check for common audio file extensions or ElevenLabs patterns
             audio_extensions = ['.mp3', '.wav', '.m4a', '.ogg', '.aac']
             is_audio_ext = any(parsed.path.lower().endswith(ext) for ext in audio_extensions)
+            is_elevenlabs = 'elevenlabs' in parsed.netloc.lower()
+            return is_audio_ext or is_elevenlabs or 'audio' in url.lower()
         except:
             return False
             audio_path = None
             if request.text_to_speech:
+                # Generate speech from text using ElevenLabs
                 logger.info(f"Generating speech from text: {request.text_to_speech[:50]}...")
+                audio_path = await self.elevenlabs_client.text_to_speech(
                     request.text_to_speech,
+                    request.voice_id or "21m00Tcm4TlvDq8ikWAM"
                 )
                 audio_generated = True
+            elif request.elevenlabs_audio_url:
                 # Download audio from provided URL
+                logger.info(f"Downloading audio from URL: {request.elevenlabs_audio_url}")
+                if not self.validate_audio_url(str(request.elevenlabs_audio_url)):
+                    logger.warning(f"Audio URL may not be valid: {request.elevenlabs_audio_url}")
+                audio_path = await self.download_file(str(request.elevenlabs_audio_url), ".mp3")
             else:
                 raise HTTPException(
                     status_code=400,
+                    detail="Either text_to_speech or elevenlabs_audio_url must be provided"
                 )
             # Download image if provided
         "status": "healthy",
         "model_loaded": omni_api.model_loaded,
         "device": omni_api.device,
+        "supports_elevenlabs": True,
         "supports_image_urls": True,
         "supports_text_to_speech": True,
+        "elevenlabs_api_configured": bool(omni_api.elevenlabs_client.api_key)
     }
 @app.post("/generate", response_model=GenerateResponse)
     if request.text_to_speech:
         logger.info(f"Text to speech: {request.text_to_speech[:100]}...")
         logger.info(f"Voice ID: {request.voice_id}")
+    if request.elevenlabs_audio_url:
+        logger.info(f"Audio URL: {request.elevenlabs_audio_url}")
     if request.image_url:
         logger.info(f"Image URL: {request.image_url}")
         return GenerateResponse(
             message="Avatar generation completed successfully",
+            output_path=get_video_url(output_path),
             processing_time=processing_time,
             audio_generated=audio_generated
         )
             request_data["text_to_speech"] = text_to_speech
             request_data["voice_id"] = voice_id or "21m00Tcm4TlvDq8ikWAM"
         elif audio_url and audio_url.strip():
+            request_data["elevenlabs_audio_url"] = audio_url
         else:
             return "Error: Please provide either text to speech or audio URL"
         ),
         gr.Textbox(
             label="Text to Speech",
+            placeholder="Enter text to convert to speech using ElevenLabs",
             lines=3,
             info="This will be converted to speech automatically"
         ),
         gr.Textbox(
             label="OR Audio URL",
+            placeholder="https://api.elevenlabs.io/v1/text-to-speech/...",
             info="Direct URL to audio file (alternative to text-to-speech)"
         ),
         gr.Textbox(
         gr.Dropdown(
             choices=["21m00Tcm4TlvDq8ikWAM", "pNInz6obpgDQGcFmaJgB", "EXAVITQu4vr4xnSDxMaL"],
             value="21m00Tcm4TlvDq8ikWAM",
+            label="ElevenLabs Voice ID",
             info="Choose voice for text-to-speech"
         ),
         gr.Slider(minimum=1, maximum=10, value=5.0, label="Guidance Scale", info="4-6 recommended"),
         gr.Slider(minimum=10, maximum=100, value=30, step=1, label="Number of Steps", info="20-50 recommended")
     ],
     outputs=gr.Video(label="Generated Avatar Video"),
+    title="🎭 OmniAvatar-14B with ElevenLabs TTS",
     description="""
     Generate avatar videos with lip-sync from text prompts and speech.
     **Features:**
     - ✅ **Text-to-Speech**: Enter text to generate speech automatically
+    - ✅ **ElevenLabs Integration**: High-quality voice synthesis
     - ✅ **Audio URL Support**: Use pre-generated audio files
     - ✅ **Image URL Support**: Reference images for character appearance
     - ✅ **Customizable Parameters**: Fine-tune generation quality
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)