Spaces:

TheStageAI
/

Elastic-musicgen-large

Running on L40S

App Files Files Community

quazim commited on Jun 27

Commit

bb422a5

1 Parent(s): 3d157c8

updated

Browse files

Files changed (1) hide show

app.py +29 -17

app.py CHANGED Viewed

@@ -132,30 +132,43 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
-        if len(audio_data.shape) > 1:
-            audio_data = audio_data[0] if audio_data.shape[0] < audio_data.shape[1] else audio_data[:, 0]
         audio_data = audio_data.flatten()
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
-        with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
-            sf.write(tmp_file.name, audio_data, sample_rate)
-            temp_path = tmp_file.name
-        print(f"[GENERATION] Audio saved to: {temp_path}")
-        return temp_path
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
@@ -198,9 +211,8 @@ with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
-                type="filepath",
-                format="wav",
-                interactive=False
             )
             with gr.Accordion("Tips", open=False):

         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
+        print(f"[GENERATION] Audio dtype: {audio_data.dtype}")
+        print(f"[GENERATION] Audio is numpy: {type(audio_data)}")
+        if hasattr(audio_data, 'cpu'):
+            audio_data = audio_data.cpu().numpy()
+        print(f"[GENERATION] Audio shape after tensor conversion: {audio_data.shape}")
+        if len(audio_data.shape) == 3:
+            audio_data = audio_data[0]
+        if len(audio_data.shape) == 2:
+            if audio_data.shape[0] < audio_data.shape[1]:
+                audio_data = audio_data.T
+            if audio_data.shape[1] > 1:
+                audio_data = audio_data[:, 0]
+            else:
+                audio_data = audio_data.flatten()
         audio_data = audio_data.flatten()
+        print(f"[GENERATION] Audio shape after flattening: {audio_data.shape}")
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
+        print(f"[GENERATION] Sample rate: {sample_rate}")
+        return (sample_rate, audio_data)
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
+                type="numpy",
+                interactive=False,
             )
             with gr.Accordion("Tips", open=False):