Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

App Files Files Community

Michael Hu commited on Jul 27

Commit

e22e786

1 Parent(s): ae641cf

remove fallback to Dummy TTS

Browse files

Files changed (5) hide show

utils/tts_base.py +0 -55
utils/tts_cosyvoice2.py +13 -19
utils/tts_dia.py +17 -23
utils/tts_dummy.py +12 -0
utils/tts_kokoro.py +9 -13

utils/tts_base.py CHANGED Viewed

@@ -67,58 +67,3 @@ class TTSBase(ABC):
         output_dir = os.path.join(os.getcwd(), "output")
         os.makedirs(output_dir, exist_ok=True)
         return os.path.join(output_dir, filename)
-class DummyTTS(TTSBase):
-    """Dummy TTS engine that generates sine wave audio
-    This class is used as a fallback when no other TTS engine is available.
-    """
-    def generate_speech(self, text: str, voice: str = 'default', speed: float = 1.0) -> str:
-        """Generate a dummy sine wave audio file
-        Args:
-            text (str): Input text (not used)
-            voice (str): Voice ID (not used)
-            speed (float): Speech speed multiplier (not used)
-        Returns:
-            str: Path to the generated audio file
-        """
-        logger.info(f"Generating dummy speech for text length: {len(text)}")
-        # Generate a simple sine wave
-        sample_rate = 24000
-        duration = min(len(text) / 20, 10)  # Rough approximation of speech duration
-        t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
-        audio = 0.5 * np.sin(2 * np.pi * 440 * t)  # 440 Hz sine wave
-        # Save to file
-        output_path = self._generate_output_path(prefix="dummy")
-        sf.write(output_path, audio, sample_rate)
-        logger.info(f"Generated dummy audio: {output_path}")
-        return output_path
-    def generate_speech_stream(self, text: str, voice: str = 'default', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
-        """Generate a dummy sine wave audio stream
-        Args:
-            text (str): Input text (not used)
-            voice (str): Voice ID (not used)
-            speed (float): Speech speed multiplier (not used)
-        Yields:
-            tuple: (sample_rate, audio_data) pairs
-        """
-        logger.info(f"Generating dummy speech stream for text length: {len(text)}")
-        # Generate a simple sine wave
-        sample_rate = 24000
-        duration = min(len(text) / 20, 10)  # Rough approximation of speech duration
-        t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
-        audio = 0.5 * np.sin(2 * np.pi * 440 * t)  # 440 Hz sine wave
-        # Yield the audio data
-        yield sample_rate, audio

         output_dir = os.path.join(os.getcwd(), "output")
         os.makedirs(output_dir, exist_ok=True)
         return os.path.join(output_dir, filename)

utils/tts_cosyvoice2.py CHANGED Viewed

@@ -3,7 +3,7 @@ import numpy as np
 import soundfile as sf
 from typing import Optional, Generator, Tuple
-from utils.tts import TTSBase, DummyTTS
 # Configure logging
 logger = logging.getLogger(__name__)
@@ -97,13 +97,13 @@ class CosyVoice2TTS(TTSBase):
         # Check if CosyVoice2 is available
         if not COSYVOICE2_AVAILABLE:
-            logger.warning("CosyVoice2 TTS engine is not available, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         # Ensure model is loaded
         if not self._ensure_model():
-            logger.warning("Failed to load CosyVoice2 model, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         try:
             import torch
@@ -130,14 +130,12 @@ class CosyVoice2TTS(TTSBase):
                 logger.info(f"CosyVoice2 audio generation complete: {output_path}")
                 return output_path
             else:
-                logger.warning("CosyVoice2 model returned None for audio output")
-                logger.warning("Falling back to dummy TTS")
-                return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         except Exception as e:
             logger.error(f"Error generating speech with CosyVoice2: {str(e)}", exc_info=True)
-            logger.warning("CosyVoice2 TTS engine failed, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
     def generate_speech_stream(self, text: str, voice: str = 'default', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using CosyVoice2 TTS engine
@@ -154,14 +152,12 @@ class CosyVoice2TTS(TTSBase):
         # Check if CosyVoice2 is available
         if not COSYVOICE2_AVAILABLE:
-            logger.warning("CosyVoice2 TTS engine is not available, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         # Ensure model is loaded
         if not self._ensure_model():
-            logger.warning("Failed to load CosyVoice2 model, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         try:
@@ -184,11 +180,9 @@ class CosyVoice2TTS(TTSBase):
                 logger.info(f"Successfully generated audio with CosyVoice2 (length: {len(output_audio_np)})")
                 yield DEFAULT_SAMPLE_RATE, output_audio_np
             else:
-                logger.warning("CosyVoice2 model returned None for audio output")
-                logger.warning("Falling back to dummy TTS")
-                yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
         except Exception as e:
             logger.error(f"Error generating speech stream with CosyVoice2: {str(e)}", exc_info=True)
-            logger.warning("CosyVoice2 TTS engine failed, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)

 import soundfile as sf
 from typing import Optional, Generator, Tuple
+from utils.tts import TTSBase
 # Configure logging
 logger = logging.getLogger(__name__)
         # Check if CosyVoice2 is available
         if not COSYVOICE2_AVAILABLE:
+            logger.error("CosyVoice2 TTS engine is not available")
+            return None
         # Ensure model is loaded
         if not self._ensure_model():
+            logger.error("Failed to load CosyVoice2 model")
+            return None
         try:
             import torch
                 logger.info(f"CosyVoice2 audio generation complete: {output_path}")
                 return output_path
             else:
+                logger.error("CosyVoice2 model returned None for audio output")
+                return None
         except Exception as e:
             logger.error(f"Error generating speech with CosyVoice2: {str(e)}", exc_info=True)
+            return None
     def generate_speech_stream(self, text: str, voice: str = 'default', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using CosyVoice2 TTS engine
         # Check if CosyVoice2 is available
         if not COSYVOICE2_AVAILABLE:
+            logger.error("CosyVoice2 TTS engine is not available")
             return
         # Ensure model is loaded
         if not self._ensure_model():
+            logger.error("Failed to load CosyVoice2 model")
             return
         try:
                 logger.info(f"Successfully generated audio with CosyVoice2 (length: {len(output_audio_np)})")
                 yield DEFAULT_SAMPLE_RATE, output_audio_np
             else:
+                logger.error("CosyVoice2 model returned None for audio output")
+                return
         except Exception as e:
             logger.error(f"Error generating speech stream with CosyVoice2: {str(e)}", exc_info=True)
+            return

utils/tts_dia.py CHANGED Viewed

@@ -3,7 +3,7 @@ import numpy as np
 import soundfile as sf
 from typing import Optional, Generator, Tuple
-from utils.tts import TTSBase, DummyTTS
 # Configure logging
 logger = logging.getLogger(__name__)
@@ -98,13 +98,13 @@ class DiaTTS(TTSBase):
         # Check if Dia is available
         if not DIA_AVAILABLE:
-            logger.warning("Dia TTS engine is not available, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         # Ensure model is loaded
         if not self._ensure_model():
-            logger.warning("Failed to load Dia model, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         try:
             import torch
@@ -131,20 +131,18 @@ class DiaTTS(TTSBase):
                 logger.info(f"Dia audio generation complete: {output_path}")
                 return output_path
             else:
-                logger.warning("Dia model returned None for audio output")
-                logger.warning("Falling back to dummy TTS")
-                return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         except ModuleNotFoundError as e:
             if "dac" in str(e):
-                logger.warning("Dia TTS engine failed due to missing 'dac' module, falling back to dummy TTS")
             else:
                 logger.error(f"Module not found error in Dia TTS: {str(e)}")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         except Exception as e:
             logger.error(f"Error generating speech with Dia: {str(e)}", exc_info=True)
-            logger.warning("Dia TTS engine failed, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
     def generate_speech_stream(self, text: str, voice: str = 'default', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using Dia TTS engine
@@ -161,14 +159,12 @@ class DiaTTS(TTSBase):
         # Check if Dia is available
         if not DIA_AVAILABLE:
-            logger.warning("Dia TTS engine is not available, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         # Ensure model is loaded
         if not self._ensure_model():
-            logger.warning("Failed to load Dia model, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         try:
@@ -191,17 +187,15 @@ class DiaTTS(TTSBase):
                 logger.info(f"Successfully generated audio with Dia (length: {len(output_audio_np)})")
                 yield DEFAULT_SAMPLE_RATE, output_audio_np
             else:
-                logger.warning("Dia model returned None for audio output")
-                logger.warning("Falling back to dummy TTS")
-                yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
         except ModuleNotFoundError as e:
             if "dac" in str(e):
-                logger.warning("Dia TTS engine failed due to missing 'dac' module, falling back to dummy TTS")
             else:
                 logger.error(f"Module not found error in Dia TTS: {str(e)}")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
         except Exception as e:
             logger.error(f"Error generating speech stream with Dia: {str(e)}", exc_info=True)
-            logger.warning("Dia TTS engine failed, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)

 import soundfile as sf
 from typing import Optional, Generator, Tuple
+from utils.tts import TTSBase
 # Configure logging
 logger = logging.getLogger(__name__)
         # Check if Dia is available
         if not DIA_AVAILABLE:
+            logger.error("Dia TTS engine is not available")
+            return None
         # Ensure model is loaded
         if not self._ensure_model():
+            logger.error("Failed to load Dia model")
+            return None
         try:
             import torch
                 logger.info(f"Dia audio generation complete: {output_path}")
                 return output_path
             else:
+                logger.error("Dia model returned None for audio output")
+                return None
         except ModuleNotFoundError as e:
             if "dac" in str(e):
+                logger.error("Dia TTS engine failed due to missing 'dac' module")
             else:
                 logger.error(f"Module not found error in Dia TTS: {str(e)}")
+            return None
         except Exception as e:
             logger.error(f"Error generating speech with Dia: {str(e)}", exc_info=True)
+            return None
     def generate_speech_stream(self, text: str, voice: str = 'default', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using Dia TTS engine
         # Check if Dia is available
         if not DIA_AVAILABLE:
+            logger.error("Dia TTS engine is not available")
             return
         # Ensure model is loaded
         if not self._ensure_model():
+            logger.error("Failed to load Dia model")
             return
         try:
                 logger.info(f"Successfully generated audio with Dia (length: {len(output_audio_np)})")
                 yield DEFAULT_SAMPLE_RATE, output_audio_np
             else:
+                logger.error("Dia model returned None for audio output")
+                return
         except ModuleNotFoundError as e:
             if "dac" in str(e):
+                logger.error("Dia TTS engine failed due to missing 'dac' module")
             else:
                 logger.error(f"Module not found error in Dia TTS: {str(e)}")
+            return
         except Exception as e:
             logger.error(f"Error generating speech stream with Dia: {str(e)}", exc_info=True)
+            return

utils/tts_dummy.py CHANGED Viewed

@@ -1,3 +1,15 @@
 class DummyTTS(TTSBase):
     """Dummy TTS engine that generates sine wave audio

+import logging
+import os
+import time
+import numpy as np
+import soundfile as sf
+from typing import Optional, Generator, Tuple, List
+from .tts_base import TTSBase
+# Configure logging
+logger = logging.getLogger(__name__)
 class DummyTTS(TTSBase):
     """Dummy TTS engine that generates sine wave audio

utils/tts_kokoro.py CHANGED Viewed

@@ -3,7 +3,7 @@ import numpy as np
 import soundfile as sf
 from typing import Optional, Generator, Tuple
-from utils.tts import TTSBase, DummyTTS
 # Configure logging
 logger = logging.getLogger(__name__)
@@ -86,13 +86,13 @@ class KokoroTTS(TTSBase):
         # Check if Kokoro is available
         if not KOKORO_AVAILABLE:
-            logger.warning("Kokoro TTS engine is not available, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         # Ensure pipeline is loaded
         if not self._ensure_pipeline():
-            logger.warning("Failed to load Kokoro pipeline, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
         try:
             # Generate unique output path
@@ -109,8 +109,7 @@ class KokoroTTS(TTSBase):
             return output_path
         except Exception as e:
             logger.error(f"Error generating speech with Kokoro: {str(e)}", exc_info=True)
-            logger.warning("Kokoro TTS engine failed, falling back to dummy TTS")
-            return DummyTTS(self.lang_code).generate_speech(text, voice, speed)
     def generate_speech_stream(self, text: str, voice: str = 'af_heart', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using Kokoro TTS engine
@@ -127,14 +126,12 @@ class KokoroTTS(TTSBase):
         # Check if Kokoro is available
         if not KOKORO_AVAILABLE:
-            logger.warning("Kokoro TTS engine is not available, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         # Ensure pipeline is loaded
         if not self._ensure_pipeline():
-            logger.warning("Failed to load Kokoro pipeline, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)
             return
         try:
@@ -144,5 +141,4 @@ class KokoroTTS(TTSBase):
                 yield 24000, audio
         except Exception as e:
             logger.error(f"Error generating speech stream with Kokoro: {str(e)}", exc_info=True)
-            logger.warning("Kokoro TTS engine failed, falling back to dummy TTS")
-            yield from DummyTTS(self.lang_code).generate_speech_stream(text, voice, speed)

 import soundfile as sf
 from typing import Optional, Generator, Tuple
+from utils.tts import TTSBase
 # Configure logging
 logger = logging.getLogger(__name__)
         # Check if Kokoro is available
         if not KOKORO_AVAILABLE:
+            logger.error("Kokoro TTS engine is not available")
+            return None
         # Ensure pipeline is loaded
         if not self._ensure_pipeline():
+            logger.error("Failed to load Kokoro pipeline")
+            return None
         try:
             # Generate unique output path
             return output_path
         except Exception as e:
             logger.error(f"Error generating speech with Kokoro: {str(e)}", exc_info=True)
+            return None
     def generate_speech_stream(self, text: str, voice: str = 'af_heart', speed: float = 1.0) -> Generator[Tuple[int, np.ndarray], None, None]:
         """Generate speech stream using Kokoro TTS engine
         # Check if Kokoro is available
         if not KOKORO_AVAILABLE:
+            logger.error("Kokoro TTS engine is not available")
             return
         # Ensure pipeline is loaded
         if not self._ensure_pipeline():
+            logger.error("Failed to load Kokoro pipeline")
             return
         try:
                 yield 24000, audio
         except Exception as e:
             logger.error(f"Error generating speech stream with Kokoro: {str(e)}", exc_info=True)
+            return