Spaces:

vsj0702
/

voice_ai

Sleeping

App Files Files Community

vsj0702 commited on Jul 7

Commit

2645464

verified ·

1 Parent(s): 9e8ba15

Restoring

Browse files

Files changed (1) hide show

app.py +78 -124

app.py CHANGED Viewed

@@ -10,140 +10,94 @@ import asyncio
 from dotenv import load_dotenv
 load_dotenv()
-# Page config
-st.set_page_config(page_title="Voice AI Assistant", page_icon="🎤", layout="centered")
-# Theme toggle
-if "dark_mode" not in st.session_state:
-    st.session_state.dark_mode = False  # default: light mode
-dm = st.sidebar.checkbox("🌙 Dark Mode", value=st.session_state.dark_mode)
-st.session_state.dark_mode = dm
-# Theme colors
-BG = "#0f1620" if dm else "#f8f9fa"
-PANEL = "#1c2330" if dm else "#ffffff"
-TEXT = "#e3e8f1" if dm else "#1a1a1a"
-CARD = "#2a3240" if dm else "#f1f3f5"
-ACCENT = "#ff5252"
-BORDER = "#333" if dm else "#ddd"
-# Custom CSS
-st.markdown(f"""
-<style>
-    .stApp {{
-        background-color: {BG};
-        color: {TEXT};
-    }}
-    [data-testid="stSidebar"] {{
-        background-color: {PANEL};
-    }}
-    .block-container {{
-        padding-top: 2rem;
-        padding-bottom: 2rem;
-    }}
-    h1, h2, h3, h4 {{
-        color: {TEXT};
-    }}
-    .conversation-block {{
-        background-color: {CARD};
-        padding: 1rem;
-        border-radius: 8px;
-        margin-bottom: 1rem;
-        border: 1px solid {BORDER};
-    }}
-    .question {{
-        font-weight: bold;
-        color: {ACCENT};
-    }}
-    .answer {{
-        margin-top: 0.5rem;
-        color: {TEXT};
-    }}
-    .audio-player {{
-        margin-top: 0.5rem;
-    }}
-    .status-bar {{
-        font-style: italic;
-        color: {TEXT}AA;
-        margin-bottom: 1rem;
-    }}
-</style>
-""", unsafe_allow_html=True)
-# App UI
-st.title("🎤 Voice AI Assistant")
-# Session init
-if "conversation" not in st.session_state:
-    st.session_state.conversation = []  # list of (question, answer, audio_filename)
-if "audio_count" not in st.session_state:
-    st.session_state.audio_count = 1
-status = st.empty()
-status.markdown("<div class='status-bar'>🎙️ Press mic button or type to ask a question</div>", unsafe_allow_html=True)
-recorded_audio = audio_recorder(sample_rate=8000)
-text_input = st.chat_input("Type your question here...")
-# ----- INPUT HANDLER -----
-def handle_input(user_text):
-    status.markdown("<div class='status-bar'>🤖 Thinking...</div>", unsafe_allow_html=True)
-    response = answer(user_text)
-    audio_file = f"output{st.session_state.audio_count}.wav"
-    status.markdown("<div class='status-bar'>🎧 Converting response to audio...</div>", unsafe_allow_html=True)
-    asyncio.run(convert_audio(response, audio_file))
-    st.session_state.audio_count += 1
-    st.session_state.conversation.append((f"Q: {user_text}", f"A: {response}", audio_file))
-    status.markdown("<div class='status-bar'>✅ Ask another question...</div>", unsafe_allow_html=True)
-# ----- PROCESS INPUT -----
-if text_input:
-    handle_input(text_input)
-elif recorded_audio:
-    status.markdown("<div class='status-bar'>🧠 Transcribing speech...</div>", unsafe_allow_html=True)
-    data_to_file(recorded_audio)
-    transcription = audio_to_text("temp_audio.wav")
-    handle_input(transcription)
-# ----- SHOW CONVERSATION -----
-if st.session_state.conversation:
-    st.markdown("## 🧾 Conversation History")
-    for i, (q, a, audio_path) in enumerate(st.session_state.conversation):
-        with st.container():
-            st.markdown(f"<div class='conversation-block'>", unsafe_allow_html=True)
-            st.markdown(f"<div class='question'>{q}</div>", unsafe_allow_html=True)
-            st.markdown(f"<div class='answer'>{a}</div>", unsafe_allow_html=True)
-            st.audio(audio_path, format="audio/wav", autoplay=(i == len(st.session_state.conversation)-1))
-            st.markdown("</div>", unsafe_allow_html=True)
-# ----- AUDIO TO TEXT -----
-def data_to_file(audio_blob):
-    with open("temp_audio.wav", "wb") as f:
-        f.write(audio_blob)
-def audio_to_text(path):
-    client = Groq(api_key=os.getenv("GROQ_API_KEY"))
-    with open(path, "rb") as f:
         transcription = client.audio.translations.create(
-            file=(path, f.read()),
             model='whisper-large-v3',
         )
     return transcription.text
-# ----- LLM ANSWER -----
-def answer(question):
-    model = ChatGroq(model="llama-3.3-70b-versatile", temperature=0.6)
     prompt = ChatPromptTemplate([
-        ("system", "You are a knowledgeable AI assistant. Keep answers clear, brief, and well-punctuated for speech conversion."),
-        ("user", "User Query: {question}")
     ])
     parser = StrOutputParser()
-    chain = prompt | model | parser
-    return chain.invoke({'question': question})
-# ----- TEXT TO AUDIO -----
 async def convert_audio(text, filename):
     voice = "fr-FR-VivienneMultilingualNeural"
     communicate = edge_tts.Communicate(text, voice)
     await communicate.save(filename)

 from dotenv import load_dotenv
 load_dotenv()
+#Front end using streamlit
+def frontend():
+    st.title("Voice AI Demo")
+    # Initialize session state variables
+    if "conversation" not in st.session_state:
+        st.session_state.conversation = []  # Stores (question, answer, audio_filename)
+    if "audio_count" not in st.session_state:
+        st.session_state.audio_count = 1  # Start numbering audio files from output1.wav
+    status_placeholder = st.empty()
+    status_placeholder.write("Press Mic button to start asking a question")
+    recorded_audio = audio_recorder(sample_rate=8000)
+    text = st.chat_input()
+    def process_input(user_input):
+        status_placeholder.write("Getting response...")
+        response = answer(user_input)
+        status_placeholder.write("Converting response to audio...")
+        # Generate unique audio filename
+        audio_filename = f"output{st.session_state.audio_count}.wav"
+        asyncio.run(convert_audio(response, audio_filename))
+        st.session_state.audio_count += 1  # Increment for next response
+        status_placeholder.write("Press mic button again to ask more questions")
+        # Append (question, answer, audio_filename) to conversation history
+        st.session_state.conversation.append((f"Q: {user_input}", f"A: {response}", audio_filename))
+    # Handle user input
+    if text:
+        process_input(text)
+    elif recorded_audio:
+        status_placeholder.write("Converting audio...")
+        data_to_file(recorded_audio)
+        status_placeholder.write("Uploading audio...")
+        transcription = audio_to_text("temp_audio.wav")
+        status_placeholder.write("Transcription completed.")
+        process_input(transcription)
+    # Display full conversation history
+    for i, (q, a, audio_file) in enumerate(st.session_state.conversation):
+        st.write(q)
+        st.write(a)
+        st.audio(audio_file, format="audio/wav", loop=False, autoplay=(i == len(st.session_state.conversation) - 1))
+#Fuction to convert audio data to audio file
+def data_to_file(recorded_audio):
+    temp_audio_path = "temp_audio.wav"
+    with open(temp_audio_path, "wb") as temp_file:
+        temp_file.write(recorded_audio)
+#Function for audio to text
+def audio_to_text(audio_path):
+    client = Groq(api_key=os.getenv('GROQ_API_KEY'))
+    with open(audio_path, 'rb') as file:
         transcription = client.audio.translations.create(
+            file=(audio_path, file.read()),
             model='whisper-large-v3',
         )
     return transcription.text
+#Function for answerig User Query
+def answer(user_question):
+    model = ChatGroq(
+        model="llama-3.3-70b-versatile",
+        temperature=0.6
+    )
     prompt = ChatPromptTemplate([
+        ("system", "You are super knowlegable AI chat bot which will answer all User Query, answer with confident, also this response will get convert back to speech, so dont make point or anything, but make your answer in para form and dont make it too large, and use proper annotation, comma, full stop, question mark, so that a better text to speach can be genrate back."),
+        ("user", "User Query: {question}"),
     ])
     parser = StrOutputParser()
+    chain = prompt|model|parser
+    answer = chain.invoke({'question': user_question})
+    return answer
+# Audio conversion
 async def convert_audio(text, filename):
     voice = "fr-FR-VivienneMultilingualNeural"
     communicate = edge_tts.Communicate(text, voice)
     await communicate.save(filename)
+frontend()