Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

App Files Files

xet

Community

Michael Hu commited on May 3

Commit

cb90410

1 Parent(s): a316f58

fix import issue

Browse files

Files changed (2) hide show

utils/tts_dia.py +47 -7
utils/tts_engines.py +37 -5

utils/tts_dia.py CHANGED Viewed

@@ -1,18 +1,36 @@
 import os
 import time
 import logging
-import torch
 import numpy as np
 import soundfile as sf
 from pathlib import Path
 from typing import Optional
-from dia.model import Dia
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # Constants
 DEFAULT_SAMPLE_RATE = 44100
 DEFAULT_MODEL_NAME = "nari-labs/Dia-1.6B"
@@ -21,9 +39,15 @@ DEFAULT_MODEL_NAME = "nari-labs/Dia-1.6B"
 _model = None
-def _get_model() -> Dia:
     """Lazy-load the Dia model to avoid loading it until needed"""
     global _model
     if _model is None:
         logger.info("Loading Dia model...")
         try:
@@ -80,16 +104,32 @@ def generate_speech(text: str, language: str = "zh") -> str:
     """
     logger.info(f"Legacy Dia generate_speech called with text length: {len(text)}")
-    # Use the new implementation via factory pattern
-    from utils.tts_engines import DiaTTSEngine
     try:
         # Create a Dia engine and generate speech
         dia_engine = DiaTTSEngine(language)
         return dia_engine.generate_speech(text)
     except Exception as e:
         logger.error(f"Error in legacy Dia generate_speech: {str(e)}", exc_info=True)
         # Fall back to dummy TTS
         from utils.tts_base import DummyTTSEngine
-        dummy_engine = DummyTTSEngine()
         return dummy_engine.generate_speech(text)

 import os
 import time
 import logging
 import numpy as np
 import soundfile as sf
 from pathlib import Path
 from typing import Optional
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+# Flag to track Dia availability
+DIA_AVAILABLE = False
+# Try to import required dependencies
+try:
+    import torch
+    # Try to import Dia, which will try to import dac
+    try:
+        from dia.model import Dia
+        DIA_AVAILABLE = True
+        logger.info("Dia TTS engine is available")
+    except ModuleNotFoundError as e:
+        if "dac" in str(e):
+            logger.warning("Dia TTS engine is not available due to missing 'dac' module")
+        else:
+            logger.warning(f"Dia TTS engine is not available: {str(e)}")
+        DIA_AVAILABLE = False
+except ImportError:
+    logger.warning("Torch not available, Dia TTS engine cannot be used")
+    DIA_AVAILABLE = False
 # Constants
 DEFAULT_SAMPLE_RATE = 44100
 DEFAULT_MODEL_NAME = "nari-labs/Dia-1.6B"
 _model = None
+def _get_model():
     """Lazy-load the Dia model to avoid loading it until needed"""
     global _model
+    # Check if Dia is available before attempting to load
+    if not DIA_AVAILABLE:
+        logger.warning("Dia is not available, cannot load model")
+        raise ImportError("Dia module is not available")
     if _model is None:
         logger.info("Loading Dia model...")
         try:
     """
     logger.info(f"Legacy Dia generate_speech called with text length: {len(text)}")
+    # Check if Dia is available
+    if not DIA_AVAILABLE:
+        logger.warning("Dia is not available, falling back to dummy TTS engine")
+        from utils.tts_base import DummyTTSEngine
+        dummy_engine = DummyTTSEngine(language)
+        return dummy_engine.generate_speech(text)
+    # Use the new implementation via factory pattern
     try:
+        # Import here to avoid circular imports
+        from utils.tts_engines import DiaTTSEngine
         # Create a Dia engine and generate speech
         dia_engine = DiaTTSEngine(language)
         return dia_engine.generate_speech(text)
+    except ModuleNotFoundError as e:
+        logger.error(f"Module not found error in Dia generate_speech: {str(e)}")
+        if "dac" in str(e):
+            logger.warning("Dia TTS engine failed due to missing 'dac' module, falling back to dummy TTS")
+        # Fall back to dummy TTS
+        from utils.tts_base import DummyTTSEngine
+        dummy_engine = DummyTTSEngine(language)
+        return dummy_engine.generate_speech(text)
     except Exception as e:
         logger.error(f"Error in legacy Dia generate_speech: {str(e)}", exc_info=True)
         # Fall back to dummy TTS
         from utils.tts_base import DummyTTSEngine
+        dummy_engine = DummyTTSEngine(language)
         return dummy_engine.generate_speech(text)

utils/tts_engines.py CHANGED Viewed

@@ -197,7 +197,18 @@ class DiaTTSEngine(TTSEngineBase):
         try:
             # Import here to avoid circular imports
-            from utils.tts_dia import generate_speech as dia_generate_speech
             logger.info("Successfully imported Dia speech generation function")
             # Call Dia's generate_speech function
@@ -211,7 +222,14 @@ class DiaTTSEngine(TTSEngineBase):
                 # Try using Dia Space instead
                 if DIA_SPACE_AVAILABLE:
                     return DiaSpaceTTSEngine(self.lang_code).generate_speech(text, voice, speed)
             raise
 class DiaSpaceTTSEngine(TTSEngineBase):
@@ -292,8 +310,15 @@ class DiaSpaceTTSEngine(TTSEngineBase):
         try:
             # Import required modules
             import torch
-            from utils.tts_dia import _get_model, DEFAULT_SAMPLE_RATE
             # Get the Dia model
             model = _get_model()
@@ -317,18 +342,25 @@ class DiaSpaceTTSEngine(TTSEngineBase):
             else:
                 logger.warning("Dia model returned None for audio output")
                 logger.warning("Falling back to dummy audio stream")
-                yield from DummyTTSEngine().generate_speech_stream(text, voice, speed)
         except ImportError as import_err:
             logger.error(f"Dia TTS streaming failed due to import error: {str(import_err)}")
             logger.error("Falling back to dummy audio stream")
-            yield from DummyTTSEngine().generate_speech_stream(text, voice, speed)
         except Exception as dia_error:
             logger.error(f"Dia TTS streaming failed: {str(dia_error)}", exc_info=True)
             logger.error(f"Error type: {type(dia_error).__name__}")
             logger.error("Falling back to dummy audio stream")
-            yield from DummyTTSEngine().generate_speech_stream(text, voice, speed)
 def get_available_engines() -> List[str]:

         try:
             # Import here to avoid circular imports
+            from utils.tts_dia import generate_speech as dia_generate_speech, DIA_AVAILABLE
+            # Check if Dia is available
+            if not DIA_AVAILABLE:
+                logger.warning("Dia TTS engine is not available, falling back to Dia Space")
+                # Try using Dia Space instead
+                if DIA_SPACE_AVAILABLE:
+                    return DiaSpaceTTSEngine(self.lang_code).generate_speech(text, voice, speed)
+                else:
+                    logger.warning("Dia Space is also not available, falling back to dummy TTS")
+                    return DummyTTSEngine(self.lang_code).generate_speech(text, voice, speed)
             logger.info("Successfully imported Dia speech generation function")
             # Call Dia's generate_speech function
                 # Try using Dia Space instead
                 if DIA_SPACE_AVAILABLE:
                     return DiaSpaceTTSEngine(self.lang_code).generate_speech(text, voice, speed)
+                else:
+                    logger.warning("Dia Space is also not available, falling back to dummy TTS")
+                    return DummyTTSEngine(self.lang_code).generate_speech(text, voice, speed)
             raise
+        except Exception as e:
+            logger.error(f"Error generating speech with Dia: {str(e)}", exc_info=True)
+            logger.warning("Falling back to dummy TTS engine")
+            return DummyTTSEngine(self.lang_code).generate_speech(text, voice, speed)
 class DiaSpaceTTSEngine(TTSEngineBase):
         try:
             # Import required modules
+            from utils.tts_dia import _get_model, DEFAULT_SAMPLE_RATE, DIA_AVAILABLE
+            # Check if Dia is available
+            if not DIA_AVAILABLE:
+                logger.warning("Dia TTS engine is not available, falling back to dummy audio stream")
+                yield from DummyTTSEngine(self.lang_code).generate_speech_stream(text, voice, speed)
+                return
             import torch
             # Get the Dia model
             model = _get_model()
             else:
                 logger.warning("Dia model returned None for audio output")
                 logger.warning("Falling back to dummy audio stream")
+                yield from DummyTTSEngine(self.lang_code).generate_speech_stream(text, voice, speed)
+        except ModuleNotFoundError as e:
+            if "dac" in str(e):
+                logger.warning("Dia TTS streaming failed due to missing 'dac' module, falling back to dummy audio stream")
+            else:
+                logger.error(f"Module not found error in Dia TTS streaming: {str(e)}")
+            yield from DummyTTSEngine(self.lang_code).generate_speech_stream(text, voice, speed)
         except ImportError as import_err:
             logger.error(f"Dia TTS streaming failed due to import error: {str(import_err)}")
             logger.error("Falling back to dummy audio stream")
+            yield from DummyTTSEngine(self.lang_code).generate_speech_stream(text, voice, speed)
         except Exception as dia_error:
             logger.error(f"Dia TTS streaming failed: {str(dia_error)}", exc_info=True)
             logger.error(f"Error type: {type(dia_error).__name__}")
             logger.error("Falling back to dummy audio stream")
+            yield from DummyTTSEngine(self.lang_code).generate_speech_stream(text, voice, speed)
 def get_available_engines() -> List[str]: