Spaces:

musdfakoc
/

local_intelligence

Sleeping

musdfakoc commited on Sep 29, 2024

Commit

7a2a54e

verified ·

1 Parent(s): af19cb5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -139,15 +139,20 @@ def magnitude_to_complex_spectrogram(magnitude_spectrogram):
     return complex_spectrogram
 def spectrogram_to_audio(magnitude_spectrogram):
-    # Convert magnitude spectrogram to complex spectrogram
     complex_spectrogram = magnitude_to_complex_spectrogram(magnitude_spectrogram)
     # Inverse STFT to convert the spectrogram back to audio
-    audio = torch.istft(complex_spectrogram, n_fft=n_fft, hop_length=hop_length)
     return audio
 def generate_audio_from_image(image):
     if image is None:
         raise ValueError("The uploaded image is 'None'. Please check the Gradio input.")
@@ -163,8 +168,19 @@ def generate_audio_from_image(image):
     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())
-    # Convert audio tensor to numpy and return it for Gradio to handle
-    return generated_audio.numpy(), sample_rate
 # Gradio Interface

     return complex_spectrogram
 def spectrogram_to_audio(magnitude_spectrogram):
+    # Convert magnitude-only spectrogram to complex format
     complex_spectrogram = magnitude_to_complex_spectrogram(magnitude_spectrogram)
+    # Provide a rectangular window to suppress the warning
+    window = torch.ones(n_fft, device=complex_spectrogram.device)
     # Inverse STFT to convert the spectrogram back to audio
+    audio = torch.istft(complex_spectrogram, n_fft=n_fft, hop_length=hop_length, window=window)
     return audio
+import numpy as np
 def generate_audio_from_image(image):
     if image is None:
         raise ValueError("The uploaded image is 'None'. Please check the Gradio input.")
     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())
+    # Ensure the audio is a NumPy array and properly formatted
+    generated_audio = generated_audio.numpy()
+    # Normalize the audio to fit between -1 and 1 for proper playback
+    max_value = np.abs(generated_audio).max()
+    if max_value > 0:
+        generated_audio = generated_audio / max_value
+    # Convert to the required format (e.g., float32)
+    generated_audio = generated_audio.astype(np.float32)
+    return generated_audio, sample_rate
 # Gradio Interface