Spaces:

musdfakoc
/

local_intelligence

Sleeping

musdfakoc commited on Sep 29, 2024

Commit

ceb7e4c

verified ·

1 Parent(s): 8cea3ee

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -121,8 +121,6 @@ def test_model(generator, test_img_path, output_audio_path, device):
     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())  # Remove batch dimension
-    print(f"Generated audio saved to {output_audio_path}")
 # Load the pre-trained GAN model
 def load_gan_model(generator, model_path, device):
     generator.load_state_dict(torch.load(model_path, map_location=device))
@@ -179,18 +177,13 @@ def generate_audio_from_image(image):
     # Convert to the required format (e.g., float32)
     generated_audio = generated_audio.astype(np.float32)
-    # Ensure the output is stereo with 2 channels, even if audio is mono
-    if len(generated_audio.shape) == 1:
-        generated_audio = np.stack([generated_audio, generated_audio], axis=0)  # Duplicate for stereo
     # Debug: Print the shape and type of the generated audio
-    print(f"Generated audio shape: {generated_audio.shape}, type: {generated_audio.dtype}")
-    # Ensure sample_rate is an integer
-    print(f"Sample rate: {sample_rate}, type: {type(sample_rate)}")  # Debugging
-    # Return the audio and sample rate in the correct format
-    return generated_audio, int(sample_rate)  # Ensure sample_rate is an integer

     # Convert the generated spectrogram to audio
     generated_audio = spectrogram_to_audio(generated_spectrogram.squeeze(0).cpu())  # Remove batch dimension
 # Load the pre-trained GAN model
 def load_gan_model(generator, model_path, device):
     generator.load_state_dict(torch.load(model_path, map_location=device))
     # Convert to the required format (e.g., float32)
     generated_audio = generated_audio.astype(np.float32)
+    # Transpose to make it (samples, channels)
+    generated_audio = generated_audio.T
     # Debug: Print the shape and type of the generated audio
+    print(f"Generated audio shape after transpose: {generated_audio.shape}, type: {generated_audio.dtype}")
+    return generated_audio, sample_rate