Spaces:

amyakir
/

voice-question-generator

Sleeping

App Files Files Community

amyakir commited on Jul 19

Commit

548a255

verified ·

1 Parent(s): 19f74b2

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -7

app.py CHANGED Viewed

@@ -1,12 +1,56 @@
-from transformers import pipeline
 import gradio as gr
-pipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-beta")
-def generate_questions(text):
-    prompt = f"Ask 5 short, simple comprehension questions about this English coursebook text:\n\n\"{text}\""
-    response = pipe(prompt, max_new_tokens=200)[0]["generated_text"]
-    return response
-demo = gr.Interface(fn=generate_questions, inputs="text", outputs="text")
 demo.launch()

+# app.py
 import gradio as gr
+from transformers import pipeline
+import torch
+import tempfile
+import os
+from TTS.api import TTS
+import whisper
+# Load question-generation pipeline (use a lightweight model)
+qg_pipeline = pipeline("text2text-generation", model="valhalla/t5-small-e2e-qg")
+# Load TTS model
+tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False)
+# Load Whisper STT model
+whisper_model = whisper.load_model("base")
+# Generate question and audio from input text
+def generate_question(text):
+    output = qg_pipeline("generate question: " + text, max_length=64, clean_up_tokenization_spaces=True)[0]['generated_text']
+    # Save TTS audio to temp file
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as fp:
+        tts.tts_to_file(text=output, file_path=fp.name)
+        audio_path = fp.name
+    return output, audio_path
+# Transcribe user audio answer
+def transcribe_audio(audio):
+    audio = whisper.load_audio(audio)
+    audio = whisper.pad_or_trim(audio)
+    mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
+    options = whisper.DecodingOptions()
+    result = whisper.decode(whisper_model, mel, options)
+    return result.text
+# Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("### Voice Q&A Generator")
+    with gr.Row():
+        input_text = gr.Textbox(label="Coursebook Text")
+        generate_btn = gr.Button("Generate Question")
+    question_out = gr.Textbox(label="Generated Question")
+    audio_out = gr.Audio(label="AI Question (Audio)", type="filepath")
+    with gr.Row():
+        user_audio = gr.Audio(source="microphone", type="filepath", label="Your Answer")
+        transcribed_text = gr.Textbox(label="Transcribed Answer")
+    generate_btn.click(fn=generate_question, inputs=input_text, outputs=[question_out, audio_out])
+    user_audio.change(fn=transcribe_audio, inputs=user_audio, outputs=transcribed_text)
 demo.launch()