Spaces:

Bagda
/

IMAGEIN

Runtime error

App Files Files Community

Bagda commited on Jun 13

Commit

c90ee98

verified ·

1 Parent(s): f4d8cc9

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -57

app.py CHANGED Viewed

@@ -1,64 +1,31 @@
 import gradio as gr
-from transformers import pipeline, WhisperProcessor, WhisperForConditionalGeneration
-import librosa
-import scipy
-import os
-# Whisper-Small model setup
-processor = WhisperProcessor.from_pretrained("openai/whisper-small")
-model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
-# Bark model setup
-bark_pipe = pipeline("text-to-speech", model="suno/bark")
-def process_audio(video_file):
-    # Step 1: Extract audio from video (if video is uploaded)
-    # (Agar sirf audio hai, toh skip karein)
-    output_audio = "output_audio.wav"
-    video = gr.Video(video_file)
-    audio = video.audio
-    audio.write_audiofile(output_audio)
-    # Step 2: Speech-to-text
-    audio, sr = librosa.load(output_audio, sr=16000)
-    input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features
-    predicted_ids = model.generate(input_features)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-    # Step 3: Text-to-speech
-    speech = bark_pipe(transcription)
-    output_file = "output_dubbed.wav"
-    scipy.io.wavfile.write(output_file, speech["sampling_rate"], speech["audio"])
-    # Step 4: Merge audio to video (temporary: agar video hai, toh audio replace karein)
-    # NOTE: Gradio ke current video component ke saath direct audio replace support nahi hai,
-    # toh hum sirf audio output file return karenge, jise user download kar sake
-    # Agar aapko video+audio merge karna hai, toh moviepy ka use karein, aur output video file return karein
-    # Yahan sirf audio output file return kar rahe hain
-    return transcription, output_file
-# Moviepy se video+audio merge (optional, agar video chahiye)
-def merge_audio_to_video(video_file, audio_file, output_video="output_dubbed.mp4"):
-    import moviepy.editor as mp
-    video = mp.VideoFileClip(video_file)
-    audio = mp.AudioFileClip(audio_file)
-    video = video.set_audio(audio)
-    video.write_videofile(output_video)
-    return output_video
-# NOTE: Gradio Audio component sirf audio file upload karta hai, video file ke liye Gradio Video component use karein
-# Lekin Gradio Video component output mein filepath return nahi karta, toh hum sirf audio file return karenge
 with gr.Blocks() as demo:
-    gr.Markdown("# Imagine: AI Video/Audio Dubbing")
-    with gr.Row():
-        file_in = gr.Video(label="Upload Video/Audio File")
-    btn = gr.Button("Generate Dubbed Audio")
-    transcription_out = gr.Textbox(label="Transcription")
-    audio_out = gr.Audio(label="Download Dubbed Audio", type="filepath")
-    btn.click(
-        fn=process_audio,
-        inputs=file_in,
-        outputs=[transcription_out, audio_out]
     )
-    # Agar video output chahiye, toh yeh function use karein (optional, Gradio Video output ke liye thoda advanced code chahiye)
-    # Yahan sirf audio output hai
-demo.launch(server_name="0.0.0.0", server_port=7860)

 import gradio as gr
+from transformers import AutoProcessor, BarkModel
+import scipy.io.wavfile
+import numpy as np
+# Model और Processor लोड करें
+processor = AutoProcessor.from_pretrained("suno/bark")
+model = BarkModel.from_pretrained("suno/bark")
+model.to("cuda")  # अगर GPU उपलब्ध है
+def generate_speech(text):
+    inputs = processor(text, voice_preset="v2/hi_speaker_1")  # हिंदी के लिए
+    audio_array = model.generate(**inputs)
+    audio_array = audio_array.cpu().numpy().squeeze()
+    sample_rate = model.generation_config.sample_rate
+    scipy.io.wavfile.write("output.wav", rate=sample_rate, data=audio_array)
+    return "output.wav"
 with gr.Blocks() as demo:
+    gr.Markdown("## Suno Bark Text-to-Speech")
+    text_input = gr.Textbox(label="टेक्स्ट इनपुट करें")
+    audio_output = gr.Audio(label="ऑडियो आउटपुट")
+    generate_button = gr.Button("Generate Speech")
+    generate_button.click(
+        fn=generate_speech,
+        inputs=text_input,
+        outputs=audio_output
     )
+demo.launch()