|
import streamlit as st |
|
from PIL import Image |
|
import speech_recognition as sr |
|
import google.generativeai as genai |
|
from gtts import gTTS |
|
import os |
|
|
|
|
|
st.set_page_config(layout="wide") |
|
|
|
|
|
api_key = "AIzaSyDJZ3r6VRhRivR0pb96cBRg_VvGg_fXq5k" |
|
|
|
def procesar_texto(texto): |
|
genai.configure(api_key=api_key) |
|
modelo = genai.GenerativeModel('gemini-1.5-pro-latest') |
|
respuesta = modelo.generate_content(texto) |
|
return respuesta.text |
|
|
|
def procesar_imagen(imagen): |
|
genai.configure(api_key=api_key) |
|
modelo = genai.GenerativeModel('gemini-1.5-pro-latest') |
|
respuesta = modelo.generate_content(imagen.name) |
|
return respuesta.text |
|
|
|
def reconocer_voz(): |
|
reconocedor = sr.Recognizer() |
|
with sr.Microphone() as fuente: |
|
st.write("Escuchando...") |
|
audio = reconocedor.listen(fuente) |
|
try: |
|
texto = reconocedor.recognize_google(audio) |
|
return texto |
|
except sr.UnknownValueError: |
|
return "El reconocimiento de voz de Google no pudo entender el audio" |
|
except sr.RequestError as e: |
|
return f"No se pudieron solicitar resultados del servicio de reconocimiento de voz de Google; {e}" |
|
|
|
def hablar_texto(texto): |
|
try: |
|
tts = gTTS(text=texto, lang='es') |
|
archivo_audio = "respuesta.mp3" |
|
tts.save(archivo_audio) |
|
os.system(f"mpg321 {archivo_audio}") |
|
except Exception as e: |
|
st.error(f"Error al generar audio: {e}") |
|
|
|
st.title("🤖 ChatBot") |
|
|
|
espacio_contenido_generado = st.empty() |
|
|
|
|
|
with open("./style.css") as f: |
|
st.markdown(f"<style>{f.read()}</style>", unsafe_allow_html=True) |
|
|
|
|
|
col1, col2 = st.columns([1, 3]) |
|
|
|
with col1: |
|
tipo_entrada = st.selectbox("Selecciona el tipo de entrada", ["Haz una pregunta❓", "🖼️ Subir imagen", "🎤 Usar micrófono"]) |
|
|
|
with col2: |
|
if tipo_entrada == "Haz una pregunta❓": |
|
entrada_texto = st.text_input("Ingresa tu pregunta aquí") |
|
if entrada_texto: |
|
with st.spinner("Generando respuesta..."): |
|
resultado = procesar_texto(entrada_texto) |
|
espacio_contenido_generado.write(resultado) |
|
if st.button("🔊 Hablar", key="hablar_entrada_texto"): |
|
hablar_texto(resultado) |
|
|
|
elif tipo_entrada == "🖼️ Subir imagen": |
|
entrada_imagen = st.file_uploader("Sube una imagen", type=["jpg", "png", "jpeg"]) |
|
if entrada_imagen: |
|
imagen = Image.open(entrada_imagen) |
|
st.image(imagen, caption='Imagen subida.', use_column_width=True) |
|
with st.spinner("Procesando imagen..."): |
|
respuesta = procesar_imagen(entrada_imagen) |
|
espacio_contenido_generado.write(respuesta) |
|
|
|
elif tipo_entrada == "🎤 Usar micrófono": |
|
if st.button("Grabar"): |
|
with st.spinner("Escuchando y procesando..."): |
|
texto_de_voz = reconocer_voz() |
|
if texto_de_voz: |
|
entrada_texto = st.text_input("Habla", value=texto_de_voz) |
|
if entrada_texto: |
|
with st.spinner("Generando respuesta..."): |
|
resultado = procesar_texto(entrada_texto) |
|
espacio_contenido_generado.write(resultado) |
|
if st.button("🔊 Hablar", key="hablar_entrada_voz"): |
|
hablar_texto(resultado) |
|
|