Spaces:

Athspi
/

Ai-audio

Runtime error

App Files Files Community

Athspi commited on Jan 12

Commit

34dc965

verified ·

1 Parent(s): e710c16

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -44

app.py CHANGED Viewed

@@ -2,10 +2,9 @@ import gradio as gr
 import whisper
 import torch
 import os
-import numpy as np
 from pydub import AudioSegment, silence
 from faster_whisper import WhisperModel  # Import faster-whisper
-import noisereduce as nr  # Import noisereduce for background noise removal
 # Mapping of model names to Whisper model sizes
 MODELS = {
@@ -187,44 +186,29 @@ def remove_silence(audio_file, silence_threshold=-40, min_silence_len=500):
     return output_path
-def remove_background_noise(audio_file, noise_reduce_level=0.5):
     """
-    Remove background noise from the audio file using AI-based noise reduction.
     Args:
         audio_file (str): Path to the input audio file.
-        noise_reduce_level (float): Noise reduction level (0.0 to 1.0). Default is 0.5.
     Returns:
-        str: Path to the output audio file with background noise removed.
     """
-    # Load the audio file
-    audio = AudioSegment.from_file(audio_file)
-    # Convert audio to numpy array for noisereduce
-    samples = np.array(audio.get_array_of_samples())
-    sample_rate = audio.frame_rate
-    # Perform noise reduction
-    reduced_noise = nr.reduce_noise(
-        y=samples,
-        sr=sample_rate,
-        prop_decrease=noise_reduce_level
-    )
-    # Convert back to AudioSegment
-    reduced_audio = AudioSegment(
-        reduced_noise.tobytes(),
-        frame_rate=sample_rate,
-        sample_width=audio.sample_width,
-        channels=audio.channels
-    )
-    # Export the processed audio
-    output_path = "noise_reduced_audio.wav"
-    reduced_audio.export(output_path, format="wav")
-    return output_path
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3"):
     """Transcribe the audio file."""
@@ -317,16 +301,11 @@ with gr.Blocks() as demo:
         silence_output = gr.Audio(label="Processed Audio (Silence Removed)", type="filepath")
         silence_button = gr.Button("Remove Silence")
-    with gr.Tab("Remove Background Noise"):
-        gr.Markdown("Upload an audio file to remove background noise.")
-        noise_audio_input = gr.Audio(type="filepath", label="Upload Audio File")
-        noise_reduce_slider = gr.Slider(
-            minimum=0.0, maximum=1.0, value=0.5, step=0.1,
-            label="Noise Reduction Level",
-            info="Higher values remove more noise."
-        )
-        noise_output = gr.Audio(label="Processed Audio (Noise Removed)", type="filepath")
-        noise_button = gr.Button("Remove Background Noise")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
@@ -340,10 +319,10 @@ with gr.Blocks() as demo:
         inputs=[silence_audio_input, silence_threshold_slider, min_silence_len_slider],
         outputs=silence_output
     )
-    noise_button.click(
-        remove_background_noise,
-        inputs=[noise_audio_input, noise_reduce_slider],
-        outputs=noise_output
     )
 # Launch the Gradio interface

 import whisper
 import torch
 import os
 from pydub import AudioSegment, silence
 from faster_whisper import WhisperModel  # Import faster-whisper
+from spleeter.separator import Separator  # Import Spleeter for music separation
 # Mapping of model names to Whisper model sizes
 MODELS = {
     return output_path
+def remove_background_music(audio_file):
     """
+    Remove background music from the audio file using Spleeter.
     Args:
         audio_file (str): Path to the input audio file.
     Returns:
+        str: Path to the output audio file with background music removed.
     """
+    # Initialize Spleeter separator (2 stems: vocals and accompaniment)
+    separator = Separator('spleeter:2stems')
+    # Separate the audio into vocals and accompaniment
+    output_folder = "output"
+    separator.separate_to_file(audio_file, output_folder)
+    # Load the separated vocals
+    base_name = os.path.splitext(os.path.basename(audio_file))[0]
+    vocals_path = os.path.join(output_folder, base_name, "vocals.wav")
+    # Return the path to the vocals file
+    return vocals_path
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whisper Large v3"):
     """Transcribe the audio file."""
         silence_output = gr.Audio(label="Processed Audio (Silence Removed)", type="filepath")
         silence_button = gr.Button("Remove Silence")
+    with gr.Tab("Remove Background Music"):
+        gr.Markdown("Upload an audio file to remove background music.")
+        bg_music_audio_input = gr.Audio(type="filepath", label="Upload Audio File")
+        bg_music_output = gr.Audio(label="Processed Audio (Background Music Removed)", type="filepath")
+        bg_music_button = gr.Button("Remove Background Music")
     # Link buttons to functions
     detect_button.click(detect_language, inputs=detect_audio_input, outputs=detect_language_output)
         inputs=[silence_audio_input, silence_threshold_slider, min_silence_len_slider],
         outputs=silence_output
     )
+    bg_music_button.click(
+        remove_background_music,
+        inputs=bg_music_audio_input,
+        outputs=bg_music_output
     )
 # Launch the Gradio interface