Spaces:

musdfakoc
/

local_intelligence

Sleeping

App Files Files Community

musdfakoc commited on Sep 30, 2024

Commit

f7e6aa6

verified ·

1 Parent(s): 355b1c8

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -11

app.py CHANGED Viewed

@@ -150,11 +150,12 @@ def spectrogram_to_audio(magnitude_spectrogram):
     return audio
 def generate_audio_from_image(image):
     if image is None:
         raise ValueError("The uploaded image is 'None'. Please check the Gradio input.")
-    # Preprocess image
     test_img = image_transform(image).unsqueeze(0).to(device)
     # Generate sound spectrogram from the image using the loaded generator
@@ -164,29 +165,34 @@ def generate_audio_from_image(image):
     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())
-    # Ensure the audio is a NumPy array and properly formatted
     generated_audio = generated_audio.numpy()
-    # Normalize the audio to fit between -1 and 1 for proper playback
     max_value = np.abs(generated_audio).max()
     if max_value > 0:
         generated_audio = generated_audio / max_value
-    # Convert audio to 16-bit integer format (-32768 to 32767)
     generated_audio = np.int16(generated_audio * 32767)
-    # Ensure audio is stereo with shape (samples, channels)
-    if generated_audio.ndim == 1:
         generated_audio = np.expand_dims(generated_audio, axis=-1)
-    # Transpose to (samples, channels) format
     generated_audio = generated_audio.T
-    # Debug: Print the shape and type of the generated audio
-    print(f"Generated audio shape after processing: {generated_audio.shape}, type: {generated_audio.dtype}")
-    # Return audio and sample rate
-    return generated_audio, sample_rate

     return audio
 def generate_audio_from_image(image):
     if image is None:
         raise ValueError("The uploaded image is 'None'. Please check the Gradio input.")
+    # Preprocess the image
     test_img = image_transform(image).unsqueeze(0).to(device)
     # Generate sound spectrogram from the image using the loaded generator
     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())
+    # Convert the audio to a NumPy array
     generated_audio = generated_audio.numpy()
+    # Normalize the audio between -1 and 1
     max_value = np.abs(generated_audio).max()
     if max_value > 0:
         generated_audio = generated_audio / max_value
+    # Convert the audio to 16-bit integer format
     generated_audio = np.int16(generated_audio * 32767)
+    # Ensure audio is in stereo format (samples, channels)
+    if generated_audio.ndim == 1:  # If mono, make it stereo
         generated_audio = np.expand_dims(generated_audio, axis=-1)
+    # Transpose to ensure the shape is (samples, channels)
     generated_audio = generated_audio.T
+    # Convert sample_rate to a scalar integer
+    sample_rate_scalar = int(sample_rate)
+    # Debug: Ensure everything is correct before returning
+    print(f"Returning audio data of shape {generated_audio.shape}, dtype {generated_audio.dtype}")
+    print(f"Returning sample rate: {sample_rate_scalar}, dtype {type(sample_rate_scalar)}")
+    # Return the tuple (sample_rate, audio_data)
+    return (sample_rate_scalar, generated_audio)