Spaces:

UcsTurkey
/

flare

Running

App Files Files Community

ciyidogan commited on Jul 11

Commit

f4b2af6

verified ·

1 Parent(s): 931d646

Update stt/stt_google.py

Browse files

Files changed (1) hide show

stt/stt_google.py +31 -3

stt/stt_google.py CHANGED Viewed

@@ -76,12 +76,28 @@ class GoogleSTT(STTInterface):
             log_info(f"📊 Transcribing {len(audio_data)} bytes of audio")
             # Convert to WAV format for better compatibility
             wav_audio = self._convert_to_wav(audio_data, config.sample_rate)
             # Configure recognition
             language_code = self._map_language_code(config.language)
             recognition_config = RecognitionConfig(
                 encoding=RecognitionConfig.AudioEncoding.LINEAR16,
                 sample_rate_hertz=config.sample_rate,
@@ -91,14 +107,26 @@ class GoogleSTT(STTInterface):
                 use_enhanced=config.use_enhanced,
                 enable_word_time_offsets=config.enable_word_timestamps,
             )
             # Create audio object
             audio = RecognitionAudio(content=wav_audio)
             # Perform synchronous recognition
             log_info(f"🔄 Sending audio to Google Cloud Speech API...")
             response = self.client.recognize(config=recognition_config, audio=audio)
             # Process results
             if response.results:
                 result = response.results[0]

             log_info(f"📊 Transcribing {len(audio_data)} bytes of audio")
+            # ✅ Debug - audio verisi analizi
+            if len(audio_data) > 100:
+                # İlk ve son 50 byte'ı kontrol et
+                first_50 = audio_data[:50]
+                last_50 = audio_data[-50:]
+                log_debug(f"Audio first 50 bytes: {first_50.hex()}")
+                log_debug(f"Audio last 50 bytes: {last_50.hex()}")
+                # Ortalama amplitude kontrolü
+                import struct
+                samples = struct.unpack(f'{len(audio_data)//2}h', audio_data)
+                avg_amplitude = sum(abs(s) for s in samples) / len(samples)
+                max_amplitude = max(abs(s) for s in samples)
+                log_debug(f"Audio stats: avg_amplitude={avg_amplitude:.1f}, max_amplitude={max_amplitude}")
             # Convert to WAV format for better compatibility
             wav_audio = self._convert_to_wav(audio_data, config.sample_rate)
             # Configure recognition
             language_code = self._map_language_code(config.language)
+            """
             recognition_config = RecognitionConfig(
                 encoding=RecognitionConfig.AudioEncoding.LINEAR16,
                 sample_rate_hertz=config.sample_rate,
                 use_enhanced=config.use_enhanced,
                 enable_word_time_offsets=config.enable_word_timestamps,
             )
+            """
+            recognition_config = RecognitionConfig(
+                encoding=RecognitionConfig.AudioEncoding.LINEAR16,
+                sample_rate_hertz=16000,  # Sabit
+                language_code="tr-TR",     # Sabit
+                enable_automatic_punctuation=True
+            log_debug(f"Recognition config: language={language_code}, sample_rate={config.sample_rate}, model={config.model}")
             # Create audio object
             audio = RecognitionAudio(content=wav_audio)
             # Perform synchronous recognition
             log_info(f"🔄 Sending audio to Google Cloud Speech API...")
             response = self.client.recognize(config=recognition_config, audio=audio)
+            # ✅ Debug response
+            log_debug(f"API Response: {response}")
             # Process results
             if response.results:
                 result = response.results[0]