Project-HF-2025 / app.py
C2MV's picture
Update app.py
f45845d verified
raw
history blame
25.6 kB
import gradio as gr
import anthropic
import PyPDF2
import pandas as pd
import numpy as np
import io
import os
import json
import zipfile
import tempfile
from typing import Dict, List, Tuple, Union
import re
from pathlib import Path
import openpyxl
from dataclasses import dataclass
from enum import Enum
# Configuración para HuggingFace
os.environ['GRADIO_ANALYTICS_ENABLED'] = 'False'
# Inicializar cliente Anthropic
client = anthropic.Anthropic()
# Enum para tipos de análisis
class AnalysisType(Enum):
MATHEMATICAL_MODEL = "mathematical_model"
DATA_FITTING = "data_fitting"
UNKNOWN = "unknown"
# Estructura modular para modelos
@dataclass
class MathematicalModel:
name: str
equation: str
parameters: List[str]
application: str
sources: List[str]
category: str
# Sistema de registro de modelos escalable
class ModelRegistry:
def __init__(self):
self.models = {}
self._initialize_default_models()
def register_model(self, model: MathematicalModel):
"""Registra un nuevo modelo matemático"""
if model.category not in self.models:
self.models[model.category] = {}
self.models[model.category][model.name] = model
def get_model(self, category: str, name: str) -> MathematicalModel:
"""Obtiene un modelo específico"""
return self.models.get(category, {}).get(name)
def get_all_models(self) -> Dict:
"""Retorna todos los modelos registrados"""
return self.models
def _initialize_default_models(self):
"""Inicializa los modelos por defecto"""
# Modelos de crecimiento
self.register_model(MathematicalModel(
name="Monod",
equation="μ = μmax × (S / (Ks + S))",
parameters=["μmax (h⁻¹)", "Ks (g/L)"],
application="Crecimiento limitado por sustrato único",
sources=["Cambridge", "MIT", "DTU"],
category="crecimiento_biomasa"
))
self.register_model(MathematicalModel(
name="Logístico",
equation="dX/dt = μmax × X × (1 - X/Xmax)",
parameters=["μmax (h⁻¹)", "Xmax (g/L)"],
application="Sistemas cerrados batch",
sources=["Cranfield", "Swansea", "HAL Theses"],
category="crecimiento_biomasa"
))
self.register_model(MathematicalModel(
name="Gompertz",
equation="X(t) = Xmax × exp(-exp((μmax × e / Xmax) × (λ - t) + 1))",
parameters=["λ (h)", "μmax (h⁻¹)", "Xmax (g/L)"],
application="Crecimiento con fase lag pronunciada",
sources=["Lund University", "NC State"],
category="crecimiento_biomasa"
))
# Modelos enzimáticos
self.register_model(MathematicalModel(
name="Michaelis-Menten",
equation="v = Vmax × S / (Km + S)",
parameters=["Vmax", "Km"],
application="Cinética enzimática básica",
sources=["Warsaw Univ Tech", "Food Processing"],
category="consumo_sustrato"
))
# Modelos de producto
self.register_model(MathematicalModel(
name="Luedeking-Piret",
equation="dP/dt = α × (dX/dt) + β × X",
parameters=["α (asociado)", "β (no asociado)"],
application="Producción mixta asociada/no asociada",
sources=["Cambridge", "E-Century"],
category="formacion_producto"
))
# Instancia global del registro
model_registry = ModelRegistry()
# Modelos de Claude disponibles
CLAUDE_MODELS = {
"claude-3-5-sonnet-20241022": {
"name": "Claude 3.5 Sonnet",
"description": "Modelo rápido y eficiente",
"max_tokens": 4000,
"best_for": "Análisis general"
},
"claude-3-opus-20240229": {
"name": "Claude 3 Opus",
"description": "Modelo más potente",
"max_tokens": 4000,
"best_for": "Análisis complejos"
},
"claude-3-haiku-20240307": {
"name": "Claude 3 Haiku",
"description": "Modelo más rápido",
"max_tokens": 4000,
"best_for": "Análisis rápidos"
}
}
class FileProcessor:
"""Clase para procesar diferentes tipos de archivos"""
@staticmethod
def extract_text_from_pdf(pdf_file) -> str:
"""Extrae texto de un archivo PDF"""
try:
pdf_reader = PyPDF2.PdfReader(io.BytesIO(pdf_file))
text = ""
for page in pdf_reader.pages:
text += page.extract_text() + "\n"
return text
except Exception as e:
return f"Error al leer PDF: {str(e)}"
@staticmethod
def read_csv(csv_file) -> pd.DataFrame:
"""Lee archivo CSV"""
try:
return pd.read_csv(io.BytesIO(csv_file))
except Exception as e:
return None
@staticmethod
def read_excel(excel_file) -> pd.DataFrame:
"""Lee archivo Excel"""
try:
return pd.read_excel(io.BytesIO(excel_file))
except Exception as e:
return None
@staticmethod
def extract_from_zip(zip_file) -> List[Tuple[str, bytes]]:
"""Extrae archivos de un ZIP"""
files = []
try:
with zipfile.ZipFile(io.BytesIO(zip_file), 'r') as zip_ref:
for file_name in zip_ref.namelist():
if not file_name.startswith('__MACOSX'):
file_data = zip_ref.read(file_name)
files.append((file_name, file_data))
except Exception as e:
print(f"Error procesando ZIP: {e}")
return files
class AIAnalyzer:
"""Clase para análisis con IA"""
def __init__(self, client, model_registry):
self.client = client
self.model_registry = model_registry
def detect_analysis_type(self, content: Union[str, pd.DataFrame]) -> AnalysisType:
"""Detecta el tipo de análisis necesario"""
if isinstance(content, pd.DataFrame):
# Si es DataFrame, probablemente son datos para ajustar
return AnalysisType.DATA_FITTING
# Analizar texto para determinar tipo
prompt = """
Analiza este contenido y determina si es:
1. Un artículo científico que describe modelos matemáticos biotecnológicos
2. Datos experimentales para ajuste de parámetros
Responde solo con: "MODELO" o "DATOS"
"""
try:
response = self.client.messages.create(
model="claude-3-haiku-20240307",
max_tokens=10,
messages=[{"role": "user", "content": f"{prompt}\n\n{content[:1000]}"}]
)
result = response.content[0].text.strip().upper()
if "MODELO" in result:
return AnalysisType.MATHEMATICAL_MODEL
elif "DATOS" in result:
return AnalysisType.DATA_FITTING
else:
return AnalysisType.UNKNOWN
except:
return AnalysisType.UNKNOWN
def analyze_mathematical_article(self, text: str, claude_model: str) -> Dict:
"""Analiza artículo con modelos matemáticos"""
prompts = {
"identificar_modelos": """
Analiza este texto científico e identifica:
1. Modelos matemáticos biotecnológicos descritos
2. Ecuaciones específicas
3. Parámetros mencionados
4. Aplicaciones biotecnológicas
5. Microorganismos y procesos
Formato JSON con estructura:
{
"modelos": ["nombre1", "nombre2"],
"ecuaciones": ["eq1", "eq2"],
"parametros": ["param1", "param2"],
"aplicaciones": ["app1", "app2"],
"microorganismos": ["org1", "org2"]
}
""",
"recomendar_implementacion": """
Basado en los modelos identificados, proporciona:
1. Estrategia de implementación
2. Consideraciones experimentales
3. Métodos de validación
4. Posibles limitaciones
"""
}
try:
# Identificar modelos
response = self.client.messages.create(
model=claude_model,
max_tokens=2000,
messages=[{
"role": "user",
"content": f"{prompts['identificar_modelos']}\n\nTEXTO:\n{text[:3000]}"
}]
)
models_info = response.content[0].text
# Recomendaciones
response2 = self.client.messages.create(
model=claude_model,
max_tokens=2000,
messages=[{
"role": "user",
"content": f"{prompts['recomendar_implementacion']}\n\nMODELOS:\n{models_info}"
}]
)
return {
"tipo": "Artículo de Modelos Matemáticos",
"modelos": models_info,
"recomendaciones": response2.content[0].text
}
except Exception as e:
return {"error": str(e)}
def analyze_fitting_data(self, data: pd.DataFrame, claude_model: str) -> Dict:
"""Analiza datos para ajuste de parámetros"""
# Preparar resumen de datos
data_summary = f"""
Columnas: {list(data.columns)}
Forma: {data.shape}
Primeras filas:
{data.head().to_string()}
Estadísticas:
{data.describe().to_string()}
"""
prompt = """
Analiza estos datos experimentales y determina:
1. Variables independientes y dependientes
2. Posibles modelos matemáticos aplicables
3. Método de ajuste recomendado
4. Parámetros a estimar
5. Calidad esperada del ajuste
Proporciona código Python para el ajuste.
"""
try:
response = self.client.messages.create(
model=claude_model,
max_tokens=3000,
messages=[{
"role": "user",
"content": f"{prompt}\n\nDATOS:\n{data_summary}"
}]
)
return {
"tipo": "Datos para Ajuste",
"analisis": response.content[0].text,
"resumen_datos": data_summary
}
except Exception as e:
return {"error": str(e)}
def process_files(files, claude_model: str) -> str:
"""Procesa múltiples archivos"""
processor = FileProcessor()
analyzer = AIAnalyzer(client, model_registry)
results = []
for file in files:
if file is None:
continue
file_name = file.name if hasattr(file, 'name') else "archivo"
file_ext = Path(file_name).suffix.lower()
# Leer contenido del archivo
with open(file.name, 'rb') as f:
file_content = f.read()
# Procesar según tipo
if file_ext == '.zip':
# Extraer y procesar archivos del ZIP
extracted_files = processor.extract_from_zip(file_content)
results.append(f"## 📦 Archivo ZIP: {file_name}")
results.append(f"Contiene {len(extracted_files)} archivos\n")
for name, content in extracted_files:
sub_ext = Path(name).suffix.lower()
results.append(f"### 📄 {name}")
if sub_ext == '.pdf':
text = processor.extract_text_from_pdf(content)
analysis_type = analyzer.detect_analysis_type(text)
if analysis_type == AnalysisType.MATHEMATICAL_MODEL:
result = analyzer.analyze_mathematical_article(text, claude_model)
else:
result = {"tipo": "PDF no reconocido", "contenido": text[:500]}
results.append(json.dumps(result, indent=2, ensure_ascii=False))
elif sub_ext in ['.csv', '.xlsx', '.xls']:
if sub_ext == '.csv':
df = processor.read_csv(content)
else:
df = processor.read_excel(content)
if df is not None:
result = analyzer.analyze_fitting_data(df, claude_model)
results.append(json.dumps(result, indent=2, ensure_ascii=False))
results.append("\n---\n")
elif file_ext == '.pdf':
text = processor.extract_text_from_pdf(file_content)
analysis_type = analyzer.detect_analysis_type(text)
results.append(f"## 📄 PDF: {file_name}")
if analysis_type == AnalysisType.MATHEMATICAL_MODEL:
result = analyzer.analyze_mathematical_article(text, claude_model)
else:
result = {"tipo": "PDF - Contenido no identificado", "texto": text[:1000]}
results.append(json.dumps(result, indent=2, ensure_ascii=False))
elif file_ext in ['.csv', '.xlsx', '.xls']:
results.append(f"## 📊 Archivo de datos: {file_name}")
if file_ext == '.csv':
df = processor.read_csv(file_content)
else:
df = processor.read_excel(file_content)
if df is not None:
result = analyzer.analyze_fitting_data(df, claude_model)
results.append(json.dumps(result, indent=2, ensure_ascii=False))
results.append("\n---\n")
return "\n".join(results)
def generate_implementation_code(analysis_results: str) -> str:
"""Genera código de implementación basado en el análisis"""
code = """
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.integrate import odeint
from scipy.optimize import curve_fit, differential_evolution
from sklearn.metrics import r2_score, mean_squared_error
import seaborn as sns
# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
class BiotechModelFitter:
\"\"\"Clase para ajuste de modelos biotecnológicos\"\"\"
def __init__(self):
self.models = {}
self.fitted_params = {}
self.results = {}
def add_model(self, name, func, param_names):
\"\"\"Registra un nuevo modelo\"\"\"
self.models[name] = {
'function': func,
'parameters': param_names
}
def fit_model(self, model_name, x_data, y_data, bounds=None):
\"\"\"Ajusta modelo a datos\"\"\"
if model_name not in self.models:
raise ValueError(f"Modelo {model_name} no registrado")
model_func = self.models[model_name]['function']
# Intentar ajuste con curve_fit
try:
if bounds:
popt, pcov = curve_fit(model_func, x_data, y_data, bounds=bounds)
else:
popt, pcov = curve_fit(model_func, x_data, y_data)
# Calcular métricas
y_pred = model_func(x_data, *popt)
r2 = r2_score(y_data, y_pred)
rmse = np.sqrt(mean_squared_error(y_data, y_pred))
self.fitted_params[model_name] = popt
self.results[model_name] = {
'parameters': dict(zip(self.models[model_name]['parameters'], popt)),
'covariance': pcov,
'r2': r2,
'rmse': rmse
}
return True
except Exception as e:
print(f"Error en ajuste: {e}")
# Intentar con optimización global
return self._global_fit(model_name, x_data, y_data, bounds)
def _global_fit(self, model_name, x_data, y_data, bounds):
\"\"\"Ajuste global con differential evolution\"\"\"
model_func = self.models[model_name]['function']
def objective(params):
y_pred = model_func(x_data, *params)
return np.sum((y_data - y_pred)**2)
if not bounds:
# Bounds por defecto
n_params = len(self.models[model_name]['parameters'])
bounds = [(0, 100)] * n_params
result = differential_evolution(objective, bounds)
if result.success:
popt = result.x
y_pred = model_func(x_data, *popt)
r2 = r2_score(y_data, y_pred)
rmse = np.sqrt(mean_squared_error(y_data, y_pred))
self.fitted_params[model_name] = popt
self.results[model_name] = {
'parameters': dict(zip(self.models[model_name]['parameters'], popt)),
'r2': r2,
'rmse': rmse,
'optimization_result': result
}
return True
return False
def plot_results(self, x_data, y_data, models_to_plot=None):
\"\"\"Visualiza resultados del ajuste\"\"\"
plt.figure(figsize=(12, 8))
# Datos experimentales
plt.scatter(x_data, y_data, label='Datos experimentales',
s=50, alpha=0.7, edgecolors='black')
# Modelos ajustados
if models_to_plot is None:
models_to_plot = self.fitted_params.keys()
x_smooth = np.linspace(x_data.min(), x_data.max(), 300)
for model_name in models_to_plot:
if model_name in self.fitted_params:
model_func = self.models[model_name]['function']
params = self.fitted_params[model_name]
y_smooth = model_func(x_smooth, *params)
r2 = self.results[model_name]['r2']
plt.plot(x_smooth, y_smooth,
label=f'{model_name} (R² = {r2:.4f})',
linewidth=2.5)
plt.xlabel('Variable Independiente', fontsize=12)
plt.ylabel('Variable Dependiente', fontsize=12)
plt.title('Ajuste de Modelos Biotecnológicos', fontsize=14, fontweight='bold')
plt.legend(loc='best', frameon=True, shadow=True)
plt.grid(True, alpha=0.3)
plt.tight_layout()
return plt.gcf()
def generate_report(self):
\"\"\"Genera reporte de resultados\"\"\"
report = "# Reporte de Ajuste de Modelos\\n\\n"
for model_name, results in self.results.items():
report += f"## Modelo: {model_name}\\n\\n"
report += f"### Parámetros ajustados:\\n"
for param, value in results['parameters'].items():
report += f"- **{param}**: {value:.6f}\\n"
report += f"\\n### Métricas de ajuste:\\n"
report += f"- **R²**: {results['r2']:.6f}\\n"
report += f"- **RMSE**: {results['rmse']:.6f}\\n\\n"
return report
# Modelos predefinidos comunes
def monod_model(S, mu_max, Ks):
return mu_max * S / (Ks + S)
def logistic_growth(t, K, r, t0):
return K / (1 + np.exp(-r * (t - t0)))
def gompertz_model(t, A, mu, lambda_param):
return A * np.exp(-np.exp(mu * np.e / A * (lambda_param - t) + 1))
def michaelis_menten(S, Vmax, Km):
return Vmax * S / (Km + S)
# Ejemplo de uso
if __name__ == "__main__":
# Crear instancia del ajustador
fitter = BiotechModelFitter()
# Registrar modelos
fitter.add_model('Monod', monod_model, ['mu_max', 'Ks'])
fitter.add_model('Michaelis-Menten', michaelis_menten, ['Vmax', 'Km'])
fitter.add_model('Logistic', logistic_growth, ['K', 'r', 't0'])
print("Sistema de ajuste listo para usar!")
print("Carga tus datos y utiliza fitter.fit_model()")
"""
return code
# Interfaz Gradio optimizada para HuggingFace
def create_interface():
with gr.Blocks(
title="Analizador Inteligente de Modelos Biotecnológicos",
theme=gr.themes.Soft(),
css="""
.gradio-container {
font-family: 'Arial', sans-serif;
}
"""
) as demo:
gr.Markdown("""
# 🧬 Analizador Inteligente de Modelos Biotecnológicos
### 🎯 Capacidades:
- **Detección automática** del tipo de documento (artículo científico vs datos experimentales)
- **Análisis de PDFs** con modelos matemáticos biotecnológicos
- **Procesamiento de datos** CSV/Excel para ajuste de parámetros
- **Soporte para múltiples archivos** y archivos ZIP
- **Generación de código** Python para implementación
### 📁 Tipos de archivo soportados:
- PDF (artículos científicos o reportes de datos)
- CSV/Excel (datos experimentales)
- ZIP (múltiples archivos)
""")
with gr.Row():
with gr.Column(scale=1):
files_input = gr.File(
label="📁 Subir archivos",
file_count="multiple",
file_types=[".pdf", ".csv", ".xlsx", ".xls", ".zip"],
type="filepath"
)
model_selector = gr.Dropdown(
choices=list(CLAUDE_MODELS.keys()),
value="claude-3-5-sonnet-20241022",
label="🤖 Modelo Claude",
info="Selecciona el modelo de IA"
)
analyze_btn = gr.Button(
"🚀 Analizar",
variant="primary",
size="lg"
)
# Información del modelo
model_info = gr.Markdown()
def update_model_info(model):
info = CLAUDE_MODELS[model]
return f"""
**{info['name']}**
{info['description']}
*Mejor para: {info['best_for']}*
"""
model_selector.change(
update_model_info,
inputs=[model_selector],
outputs=[model_info]
)
with gr.Column(scale=2):
analysis_output = gr.Markdown(
label="📊 Resultados del Análisis"
)
code_output = gr.Code(
label="💻 Código de Implementación",
language="python",
interactive=True
)
# Ejemplos
gr.Examples(
examples=[
[["examples/growth_kinetics.pdf"]],
[["examples/experimental_data.csv"]],
[["examples/multiple_files.zip"]]
],
inputs=[files_input],
label="📚 Ejemplos"
)
# Footer
gr.Markdown("""
---
### 🔧 Características técnicas:
- **Base de modelos escalable**: Fácil adición de nuevos modelos matemáticos
- **Análisis con IA**: Detección automática del contexto y tipo de análisis
- **Optimizado para HuggingFace**: Configuración lista para deployment
- **Código modular**: Arquitectura flexible y mantenible
### 📖 Instrucciones:
1. Sube uno o varios archivos (PDF, CSV, Excel o ZIP)
2. El sistema detectará automáticamente el tipo de análisis necesario
3. Revisa los resultados y el código generado
4. Copia el código para tu implementación
""")
# Eventos
analyze_btn.click(
fn=lambda files, model: (
process_files(files, model) if files else "Por favor sube archivos para analizar",
generate_implementation_code("") if files else ""
),
inputs=[files_input, model_selector],
outputs=[analysis_output, code_output]
)
# Cargar info inicial del modelo
demo.load(
fn=lambda: update_model_info("claude-3-5-sonnet-20241022"),
outputs=[model_info]
)
return demo
# Función principal para HuggingFace Spaces
def main():
if not os.getenv("ANTHROPIC_API_KEY"):
print("⚠️ Configura ANTHROPIC_API_KEY en los secretos de HuggingFace Space")
return gr.Interface(
fn=lambda x: "Por favor configura ANTHROPIC_API_KEY en los secretos del Space",
inputs=gr.Textbox(),
outputs=gr.Textbox(),
title="Error de Configuración"
)
return create_interface()
# Para ejecución local
if __name__ == "__main__":
demo = main()
if demo:
demo.launch(
server_name="0.0.0.0",
server_port=7860,
share=False
)