Spaces:

gaur3009
/

MemoirAI

Sleeping

App Files Files Community

gaur3009 commited on Jul 5

Commit

0c5c3aa

verified ·

1 Parent(s): bdec6fa

Update transcrriber.py

Browse files

Files changed (1) hide show

transcrriber.py +14 -12

transcrriber.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import speech_recognition as sr
 import numpy as np
-import collections
 import config
 class SpeechTranscriber:
@@ -9,33 +9,35 @@ class SpeechTranscriber:
         self.recognizer.energy_threshold = config.ENERGY_THRESHOLD
         self.recognizer.dynamic_energy_threshold = config.DYNAMIC_ENERGY_THRESHOLD
         self.recognizer.pause_threshold = config.PAUSE_THRESHOLD
-        self.audio_buffer = collections.deque(maxlen=config.BUFFER_DURATION * 10)
-        self.last_processed = 0
     def add_audio_chunk(self, audio_chunk):
-        self.audio_buffer.extend(audio_chunk)
     def get_transcript_chunk(self):
         # Only process if we have enough audio
-        if len(self.audio_buffer) < config.SAMPLE_RATE * config.MIN_PROCESSING_DURATION:
             return None
-        # Convert to AudioData format
         audio_data = sr.AudioData(
-            np.array(self.audio_buffer).tobytes(),
-            config.SAMPLE_RATE,
             2  # Sample width in bytes
         )
         try:
             # Use Google Web Speech API for best accuracy
             text = self.recognizer.recognize_google(audio_data)
             return text
         except sr.UnknownValueError:
             return None
         except sr.RequestError as e:
             print(f"Speech recognition error: {str(e)}")
-            return None
-        finally:
-            # Clear buffer after processing
-            self.audio_buffer.clear()

 import speech_recognition as sr
 import numpy as np
+import io
 import config
 class SpeechTranscriber:
         self.recognizer.energy_threshold = config.ENERGY_THRESHOLD
         self.recognizer.dynamic_energy_threshold = config.DYNAMIC_ENERGY_THRESHOLD
         self.recognizer.pause_threshold = config.PAUSE_THRESHOLD
+        self.audio_buffer = bytearray()
     def add_audio_chunk(self, audio_chunk):
+        # Convert numpy array to bytes
+        self.audio_buffer.extend(audio_chunk.tobytes())
     def get_transcript_chunk(self):
         # Only process if we have enough audio
+        min_bytes = config.SAMPLE_RATE * config.MIN_PROCESSING_DURATION * 2  # 2 bytes per sample
+        if len(self.audio_buffer) < min_bytes:
             return None
+        # Create AudioData object
         audio_data = sr.AudioData(
+            bytes(self.audio_buffer),
+            config.SAMPLE_RATE,
             2  # Sample width in bytes
         )
         try:
             # Use Google Web Speech API for best accuracy
             text = self.recognizer.recognize_google(audio_data)
+            # Clear buffer after successful recognition
+            self.audio_buffer = bytearray()
             return text
         except sr.UnknownValueError:
+            # Clear buffer even if we couldn't recognize
+            self.audio_buffer = bytearray()
             return None
         except sr.RequestError as e:
             print(f"Speech recognition error: {str(e)}")
+            return None