Spaces:

musdfakoc
/

local_intelligence

Sleeping

musdfakoc commited on Sep 30, 2024

Commit

fbb8eef

verified ·

1 Parent(s): a2aee3a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -137,14 +137,25 @@ def magnitude_to_complex_spectrogram(magnitude_spectrogram):
     complex_spectrogram = torch.stack([magnitude_spectrogram, zero_phase], dim=-1)
     return complex_spectrogram
-# Convert spectrogram back to audio using inverse STFT
 def spectrogram_to_audio(magnitude_spectrogram):
     magnitude_spectrogram = torch.expm1(magnitude_spectrogram)
     complex_spectrogram = magnitude_to_complex_spectrogram(magnitude_spectrogram)
     audio = torch.istft(complex_spectrogram, n_fft=n_fft, hop_length=hop_length)
     return audio
-# Function to generate audio from an uploaded image
 def generate_audio_from_image(image):
     test_img = image_transform(image).unsqueeze(0).to(device)  # Preprocess image
@@ -158,6 +169,7 @@ def generate_audio_from_image(image):
     # Convert audio tensor to numpy and return it for Gradio to handle
     return (sample_rate, generated_audio.numpy())
 # Gradio Interface
 def main():
     global generator  # Declare the generator object globally

     complex_spectrogram = torch.stack([magnitude_spectrogram, zero_phase], dim=-1)
     return complex_spectrogram
 def spectrogram_to_audio(magnitude_spectrogram):
+    # Perform inverse log scaling
     magnitude_spectrogram = torch.expm1(magnitude_spectrogram)
+    # Convert magnitude-only spectrogram to complex format
     complex_spectrogram = magnitude_to_complex_spectrogram(magnitude_spectrogram)
+    # Inverse STFT to convert the spectrogram back to audio
     audio = torch.istft(complex_spectrogram, n_fft=n_fft, hop_length=hop_length)
+    # Normalize audio to the range [-1, 1] (standard audio range)
+    audio = audio / torch.max(torch.abs(audio))
+    # Convert audio to 16-bit integer format, as expected for WAV files
+    audio = (audio * 32767).short()
     return audio
 def generate_audio_from_image(image):
     test_img = image_transform(image).unsqueeze(0).to(device)  # Preprocess image
     # Convert audio tensor to numpy and return it for Gradio to handle
     return (sample_rate, generated_audio.numpy())
 # Gradio Interface
 def main():
     global generator  # Declare the generator object globally