Spaces:

jeysshon
/

Soph-IA

Sleeping

App Files Files Community

jeysshon commited on Sep 7, 2024

Commit

06fec6c

verified ·

1 Parent(s): e9dd2d3

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -35

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import streamlit as st
 from PIL import Image
 import google.generativeai as genai
 from gtts import gTTS
 import os
@@ -11,41 +12,35 @@ st.set_page_config(layout="wide")
 api_key = "AIzaSyDJZ3r6VRhRivR0pb96cBRg_VvGg_fXq5k"  # API key proporcionada
 def procesar_texto(texto):
-    try:
-        genai.configure(api_key=api_key)
-        modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
-        respuesta = modelo.generate_content(texto)
-        # Verifica si la respuesta contiene la propiedad `text`
-        if hasattr(respuesta, 'text'):
-            return respuesta.text
-        else:
-            return "No se pudo generar una respuesta válida."
-    except Exception as e:
-        st.error(f"Error al procesar el texto: {e}")
-        return "No se pudo generar una respuesta."
-def procesar_imagen(imagen):
     try:
-        genai.configure(api_key=api_key)
-        modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
-        respuesta = modelo.generate_content(imagen.name)
-        # Verifica si la respuesta contiene la propiedad `text`
-        if hasattr(respuesta, 'text'):
-            return respuesta.text
-        else:
-            return "No se pudo procesar la imagen correctamente."
-    except Exception as e:
-        st.error(f"Error al procesar la imagen: {e}")
-        return "No se pudo procesar la imagen."
 def hablar_texto(texto):
-    try:
-        tts = gTTS(text=texto, lang='es')
-        archivo_audio = "respuesta.mp3"
-        tts.save(archivo_audio)
-        os.system(f"mpg321 {archivo_audio}")  # Puedes usar otro reproductor como afplay en macOS o VLC
-    except Exception as e:
-        st.error(f"Error al generar audio: {e}")
 st.title("🤖 ChatBot")
@@ -59,7 +54,7 @@ with open("./style.css") as f:
 col1, col2 = st.columns([1, 3])
 with col1:
-    tipo_entrada = st.selectbox("Selecciona el tipo de entrada", ["Haz una pregunta❓", "🖼️ Subir imagen"])
 with col2:
     if tipo_entrada == "Haz una pregunta❓":
@@ -76,7 +71,21 @@ with col2:
         if entrada_imagen:
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
-            with st.spinner("Procesando imagen..."):
-                respuesta = procesar_imagen(entrada_imagen)
-            espacio_contenido_generado.write(respuesta)

 import streamlit as st
 from PIL import Image
+import speech_recognition as sr
 import google.generativeai as genai
 from gtts import gTTS
 import os
 api_key = "AIzaSyDJZ3r6VRhRivR0pb96cBRg_VvGg_fXq5k"  # API key proporcionada
 def procesar_texto(texto):
+    genai.configure(api_key=api_key)
+    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
+    respuesta = modelo.generate_content(texto, language='es')  # Asegúrate de especificar el idioma
+    return respuesta.text
+def procesar_imagen(imagen, contexto):
+    genai.configure(api_key=api_key)
+    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
+    contexto_completo = f"Estoy procesando una imagen con el siguiente contexto: {contexto}. La imagen se llama {imagen.name}."
+    respuesta = modelo.generate_content(contexto_completo)
+    return respuesta.text
+def reconocer_voz():
+    reconocedor = sr.Recognizer()
+    with sr.Microphone() as fuente:
+        st.write("Escuchando...")
+        audio = reconocedor.listen(fuente)
     try:
+        texto = reconocedor.recognize_google(audio)
+        return texto
+    except sr.UnknownValueError:
+        return "El reconocimiento de voz de Google no pudo entender el audio"
+    except sr.RequestError as e:
+        return f"No se pudieron solicitar resultados del servicio de reconocimiento de voz de Google; {e}"
 def hablar_texto(texto):
+    tts = gTTS(text=texto, lang='es')
+    tts.save("respuesta.mp3")
+    os.system("mpg321 respuesta.mp3")  # Puedes usar otro reproductor como afplay en macOS o VLC
 st.title("🤖 ChatBot")
 col1, col2 = st.columns([1, 3])
 with col1:
+    tipo_entrada = st.selectbox("Selecciona el tipo de entrada", ["Haz una pregunta❓", "🖼️ Subir imagen", "🎤 Usar micrófono"])
 with col2:
     if tipo_entrada == "Haz una pregunta❓":
         if entrada_imagen:
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
+            contexto_imagen = st.text_input("Proporcióname más contexto sobre la imagen")
+            if contexto_imagen:
+                with st.spinner("Procesando imagen..."):
+                    respuesta = procesar_imagen(entrada_imagen, contexto_imagen)
+                espacio_contenido_generado.write(respuesta)
+    elif tipo_entrada == "🎤 Usar micrófono":
+        if st.button("Grabar"):
+            with st.spinner("Escuchando y procesando..."):
+                texto_de_voz = reconocer_voz()
+            if texto_de_voz:
+                entrada_texto = st.text_input("Habla", value=texto_de_voz)
+                if entrada_texto:
+                    with st.spinner("Generando respuesta..."):
+                        resultado = procesar_texto(entrada_texto)
+                    espacio_contenido_generado.write(resultado)
+                    if st.button("🔊 Hablar", key="hablar_entrada_voz"):
+                        hablar_texto(resultado)