Spaces:

jeysshon
/

Soph-IA

Sleeping

App Files Files Community

jeysshon commited on Sep 7, 2024

Commit

9e93c24

verified ·

1 Parent(s): 68f8a40

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -24

app.py CHANGED Viewed

@@ -3,8 +3,7 @@ from PIL import Image
 import speech_recognition as sr
 import google.generativeai as genai
 from gtts import gTTS
-import io
-import time
 # Configuración de la página de Streamlit
 st.set_page_config(layout="wide")
@@ -21,13 +20,14 @@ def procesar_texto(texto):
 def procesar_imagen(imagen):
     genai.configure(api_key=api_key)
     modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
-    respuesta = modelo.generate_content(imagen.name)  # Puedes ajustar esto si la API espera contenido de imagen real
     return respuesta.text
-def reconocer_voz_desde_archivo(archivo_audio):
     reconocedor = sr.Recognizer()
-    with sr.AudioFile(archivo_audio) as fuente:
-        audio = reconocedor.record(fuente)
     try:
         texto = reconocedor.recognize_google(audio)
         return texto
@@ -39,13 +39,11 @@ def reconocer_voz_desde_archivo(archivo_audio):
 def hablar_texto(texto):
     try:
         tts = gTTS(text=texto, lang='es')
-        archivo_audio = io.BytesIO()
-        tts.write_to_fp(archivo_audio)
-        archivo_audio.seek(0)
-        st.audio(archivo_audio, format="audio/mp3")
     except Exception as e:
         st.error(f"Error al generar audio: {e}")
-        time.sleep(5)  # Esperar 5 segundos antes de intentar nuevamente
 st.title("🤖 ChatBot")
@@ -59,7 +57,7 @@ with open("./style.css") as f:
 col1, col2 = st.columns([1, 3])
 with col1:
-    tipo_entrada = st.selectbox("Selecciona el tipo de entrada", ["Haz una pregunta❓", "🖼️ Subir imagen", "🎤 Subir archivo de audio"])
 with col2:
     if tipo_entrada == "Haz una pregunta❓":
@@ -80,16 +78,15 @@ with col2:
                 respuesta = procesar_imagen(entrada_imagen)
             espacio_contenido_generado.write(respuesta)
-    elif tipo_entrada == "🎤 Subir archivo de audio":
-        archivo_audio = st.file_uploader("Sube un archivo de audio", type=["wav", "mp3"])
-        if archivo_audio:
-            with st.spinner("Procesando audio..."):
-                texto_de_voz = reconocer_voz_desde_archivo(archivo_audio)
-            st.text_input("Texto reconocido", value=texto_de_voz)
             if texto_de_voz:
-                with st.spinner("Generando respuesta..."):
-                    resultado = procesar_texto(texto_de_voz)
-                espacio_contenido_generado.write(resultado)
-                if st.button("🔊 Hablar", key="hablar_entrada_audio"):
-                    hablar_texto(resultado)

 import speech_recognition as sr
 import google.generativeai as genai
 from gtts import gTTS
+import os
 # Configuración de la página de Streamlit
 st.set_page_config(layout="wide")
 def procesar_imagen(imagen):
     genai.configure(api_key=api_key)
     modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
+    respuesta = modelo.generate_content(imagen.name)
     return respuesta.text
+def reconocer_voz():
     reconocedor = sr.Recognizer()
+    with sr.Microphone() as fuente:
+        st.write("Escuchando...")
+        audio = reconocedor.listen(fuente)
     try:
         texto = reconocedor.recognize_google(audio)
         return texto
 def hablar_texto(texto):
     try:
         tts = gTTS(text=texto, lang='es')
+        archivo_audio = "respuesta.mp3"
+        tts.save(archivo_audio)
+        os.system(f"mpg321 {archivo_audio}")  # Usa otro reproductor si es necesario
     except Exception as e:
         st.error(f"Error al generar audio: {e}")
 st.title("🤖 ChatBot")
 col1, col2 = st.columns([1, 3])
 with col1:
+    tipo_entrada = st.selectbox("Selecciona el tipo de entrada", ["Haz una pregunta❓", "🖼️ Subir imagen", "🎤 Usar micrófono"])
 with col2:
     if tipo_entrada == "Haz una pregunta❓":
                 respuesta = procesar_imagen(entrada_imagen)
             espacio_contenido_generado.write(respuesta)
+    elif tipo_entrada == "🎤 Usar micrófono":
+        if st.button("Grabar"):
+            with st.spinner("Escuchando y procesando..."):
+                texto_de_voz = reconocer_voz()
             if texto_de_voz:
+                entrada_texto = st.text_input("Habla", value=texto_de_voz)
+                if entrada_texto:
+                    with st.spinner("Generando respuesta..."):
+                        resultado = procesar_texto(entrada_texto)
+                    espacio_contenido_generado.write(resultado)
+                    if st.button("🔊 Hablar", key="hablar_entrada_voz"):
+                        hablar_texto(resultado)