Spaces:

cesar
/

DemoProfeIA

Sleeping

App Files Files Community

cesar commited on Feb 2

Commit

346f065

verified ·

1 Parent(s): 3778096

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -10

app.py CHANGED Viewed

@@ -58,7 +58,7 @@ def extraer_texto(pdf_path: str) -> str:
 def split_secciones(texto: str) -> (str, str):
     """
     Separa el texto en dos partes: la sección 'Preguntas' y la sección 'RESPUESTAS'.
-    Busca las palabras 'Preguntas' y 'RESPUESTAS' ignorando espacios al inicio y mayúsculas.
     """
     match_preg = re.search(r'(?im)^\s*preguntas', texto)
     match_resp = re.search(r'(?im)^\s*respuestas', texto)
@@ -66,8 +66,8 @@ def split_secciones(texto: str) -> (str, str):
     if not match_preg or not match_resp:
         return (texto, "")
-    start_preg = match_preg.end()  # donde termina "Preguntas"
-    start_resp = match_resp.start()  # donde empieza "RESPUESTAS"
     texto_preguntas = texto[start_preg:start_resp].strip()
     texto_respuestas = texto[match_resp.end():].strip()
@@ -79,26 +79,29 @@ def parsear_enumeraciones(texto: str) -> dict:
     separa cada número y su contenido.
     Retorna un dict: {"Pregunta 1": "contenido", "Pregunta 2": "contenido", ...}.
     Este patrón es flexible y tolera espacios al inicio y formatos creativos.
     """
-    # El patrón usa lookahead para dividir cada bloque cuando se encuentre una línea que comience con un número,
-    # un punto o guión y opcionalmente otro número seguido de un punto o guión.
     bloques = re.split(r'(?=^\s*\d+[\.\-]\s*(?:\d+[\.\-])?\s*)', texto, flags=re.MULTILINE)
     resultado = {}
     for bloque in bloques:
         bloque = bloque.strip()
         if not bloque:
             continue
-        # El patrón extrae el primer número (que identificará la pregunta) y el contenido.
         match = re.match(r'^\s*(\d+)[\.\-]\s*(?:\d+[\.\-])?\s*(.*)', bloque)
         if match:
             numero = match.group(1)
             contenido = match.group(2)
-            # Si el bloque tiene múltiples líneas, se unen las líneas siguientes
             lineas = bloque.split("\n")
             if len(lineas) > 1:
                 contenido_completo = " ".join([linea.strip() for linea in lineas[1:]])
                 if contenido_completo:
-                    contenido += " " + contenido_completo
             resultado[f"Pregunta {numero}"] = contenido.strip()
     return resultado
@@ -165,7 +168,7 @@ def revisar_examen(json_cred, pdf_docente, pdf_alumno):
       1. Configura credenciales.
       2. Extrae y parsea el contenido de los PDFs.
       3. Separa las secciones 'Preguntas' y 'RESPUESTAS'.
-      4. Parsea las enumeraciones de cada sección (permitiendo formatos creativos).
       5. Compara las respuestas del alumno con las correctas.
       6. Llama a un LLM para generar un resumen final con retroalimentación.
     """
@@ -191,7 +194,7 @@ def revisar_examen(json_cred, pdf_docente, pdf_alumno):
         yield "Parseando enumeraciones (docente)..."
         dict_preg_doc = parsear_enumeraciones(preguntas_doc)
         dict_resp_doc = parsear_enumeraciones(respuestas_doc)
-        # Unir las respuestas del docente (correctas)
         dict_docente = {}
         for key in dict_preg_doc:
             dict_docente[key] = dict_resp_doc.get(key, "")

 def split_secciones(texto: str) -> (str, str):
     """
     Separa el texto en dos partes: la sección 'Preguntas' y la sección 'RESPUESTAS'.
+    Busca las palabras 'Preguntas' y 'RESPUESTAS' ignorando mayúsculas y espacios al inicio.
     """
     match_preg = re.search(r'(?im)^\s*preguntas', texto)
     match_resp = re.search(r'(?im)^\s*respuestas', texto)
     if not match_preg or not match_resp:
         return (texto, "")
+    start_preg = match_preg.end()  # Fin de "Preguntas"
+    start_resp = match_resp.start()  # Inicio de "RESPUESTAS"
     texto_preguntas = texto[start_preg:start_resp].strip()
     texto_respuestas = texto[match_resp.end():].strip()
     separa cada número y su contenido.
     Retorna un dict: {"Pregunta 1": "contenido", "Pregunta 2": "contenido", ...}.
     Este patrón es flexible y tolera espacios al inicio y formatos creativos.
+    Además, elimina duplicados al inicio de la respuesta (por ejemplo, "Durante Durante ...").
     """
+    # Se utiliza un lookahead para dividir cada bloque cuando se encuentre una línea que empiece con un número,
+    # un punto o guión y, opcionalmente, otro número con punto o guión.
     bloques = re.split(r'(?=^\s*\d+[\.\-]\s*(?:\d+[\.\-])?\s*)', texto, flags=re.MULTILINE)
     resultado = {}
     for bloque in bloques:
         bloque = bloque.strip()
         if not bloque:
             continue
+        # Extraemos el número de la pregunta y el contenido.
         match = re.match(r'^\s*(\d+)[\.\-]\s*(?:\d+[\.\-])?\s*(.*)', bloque)
         if match:
             numero = match.group(1)
             contenido = match.group(2)
+            # Si hay múltiples líneas, unimos las líneas adicionales.
             lineas = bloque.split("\n")
             if len(lineas) > 1:
                 contenido_completo = " ".join([linea.strip() for linea in lineas[1:]])
                 if contenido_completo:
+                    contenido = contenido + " " + contenido_completo
+            # Eliminar duplicados al inicio (por ejemplo, "Durante Durante ..." se convierte en "Durante ...")
+            contenido = re.sub(r'^(\S+)(\s+\1)+\s+', r'\1 ', contenido)
             resultado[f"Pregunta {numero}"] = contenido.strip()
     return resultado
       1. Configura credenciales.
       2. Extrae y parsea el contenido de los PDFs.
       3. Separa las secciones 'Preguntas' y 'RESPUESTAS'.
+      4. Parsea las enumeraciones de cada sección (soportando formatos creativos).
       5. Compara las respuestas del alumno con las correctas.
       6. Llama a un LLM para generar un resumen final con retroalimentación.
     """
         yield "Parseando enumeraciones (docente)..."
         dict_preg_doc = parsear_enumeraciones(preguntas_doc)
         dict_resp_doc = parsear_enumeraciones(respuestas_doc)
+        # Unir las respuestas correctas del docente
         dict_docente = {}
         for key in dict_preg_doc:
             dict_docente[key] = dict_resp_doc.get(key, "")