rad

Running

App Files Files Community

Moibe commited on 1 day ago

Commit

eabea5d

1 Parent(s): 7bdefa8

Fixing detección palabras simultaneas

Browse files

Files changed (7) hide show

.gitignore +2 -1
campos/ine_actual.py +3 -2
herramientas.py +28 -26
identificador.py +12 -3
tools/__pycache__/ine_actual.cpython-311.pyc +0 -0
tools/__pycache__/ine_antes.cpython-311.pyc +0 -0
tools/ine_actual.py +4 -0

.gitignore CHANGED Viewed

@@ -1,3 +1,4 @@
 /venv/
 /__pycache__/
-campos/__pycache__/

 /venv/
 /__pycache__/
+campos/__pycache__/
+tools/__pycache__/

campos/ine_actual.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import herramientas
 import tools.ine_actual as ine_actual_tools
 def vigencia(textos_extraidos, textos_extraidos_limpios):
@@ -10,8 +11,8 @@ def vigencia(textos_extraidos, textos_extraidos_limpios):
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_limpios, conceptos_busqueda)
     textos_extraidos_limpios = textos_extraidos_corregidos
-    print("El índice de genero es: ", indice)
     texto_genero = textos_extraidos_limpios[indice]
     print("Y su correspondiente texto es: " , texto_genero)

 import herramientas
 import tools.ine_actual as ine_actual_tools
+import time
 def vigencia(textos_extraidos, textos_extraidos_limpios):
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_limpios, conceptos_busqueda)
     textos_extraidos_limpios = textos_extraidos_corregidos
+    print("El índice de vigencia es: ", indice)
     texto_genero = textos_extraidos_limpios[indice]
     print("Y su correspondiente texto es: " , texto_genero)

herramientas.py CHANGED Viewed

@@ -72,38 +72,44 @@ def buscaIndexMultiplesPalabras(arreglo_textos, conceptos_requeridos):
     Args:
         arreglo (list): Lista de strings de texto extraído (limpios).
         conceptos_requeridos (list): Lista de diccionarios, donde cada diccionario define un concepto:
-                                     Ej: {'preferida': 'nacimiento', 'alternativas': ['nacimento', 'nacimuento']}
     Returns:
-        tuple: (índice, línea_corregida) si se encuentra, o (None, None) si no se encuentra.
     """
-    print(f"\n--- Iniciando búsqueda y corrección ---")
     # Paso 1: Normalizar los conceptos y prepararlos para la búsqueda y corrección
     conceptos_preparados = []
     for concepto in conceptos_requeridos:
         preferida = concepto['preferida'].lower().replace(" ", "")
         alternativas = [alt.lower().replace(" ", "") for alt in concepto.get('alternativas', [])]
         # Combinamos la preferida con las alternativas para la búsqueda
         todas_las_formas = [preferida] + alternativas
         conceptos_preparados.append({
             'preferida': preferida,
             'todas_las_formas': todas_las_formas,
-            'alternativas': alternativas  # Solo las alternativas para saber cuáles corregir
         })
     for i, texto_linea in enumerate(arreglo_textos):
         texto_linea_lower = texto_linea.lower()
         # Variables para seguir el rastro de la línea actual
-        es_coincidencia_completa = True
         palabras_encontradas_en_linea = {} # Almacena {forma_encontrada: forma_preferida}
         # Paso 2: Verificar si TODAS las condiciones se cumplen en esta línea
         for concepto in conceptos_preparados:
             encontrado_en_esta_linea = False
             # Buscamos si alguna forma (preferida o alternativa) está en la línea
             for forma in concepto['todas_las_formas']:
@@ -113,40 +119,36 @@ def buscaIndexMultiplesPalabras(arreglo_textos, conceptos_requeridos):
                     # Guardamos qué forma se encontró y cuál es la preferida
                     palabras_encontradas_en_linea[forma] = concepto['preferida']
-                    # Hemos encontrado una forma para este concepto, pasamos al siguiente concepto
-                    break
-            if not encontrado_en_esta_linea:
-                es_coincidencia_completa = False
-                print(f"Línea {i}: Concepto '{concepto['preferida']}' : Revisado.")
                 break # Si falta un concepto, pasamos a la siguiente línea del arreglo
         # Paso 3: Si se encontró una coincidencia completa, corregimos la línea y la retornamos
         if es_coincidencia_completa:
             print(f"ÉXITO: Coincidencia completa en el índice {i}.")
             print(f"Texto linea es: {texto_linea}")
             linea_corregida = texto_linea
             for forma_encontrada, forma_preferida in palabras_encontradas_en_linea.items():
-                # Nota: Esta corrección simple asume que la palabra encontrada está exactamente igual que en la lista de alternativas (minusculas y sin espacios)
-                # Para un OCR más variable, necesitarías una lógica de reemplazo más avanzada (ej. re.sub),
-                # pero para tu caso de "nacimento" a "nacimiento" esto funciona si la palabra se encuentra exactamente.
-                # Usamos re.sub para reemplazar la palabra encontrada con la preferida, insensible a mayúsculas/minúsculas
-                # (re.escape para manejar caracteres especiales si los hubiera)
                 patron_reemplazo = re.compile(re.escape(forma_encontrada), re.IGNORECASE)
-                # Reemplazamos la palabra encontrada en la línea original con la forma preferida
                 linea_corregida = patron_reemplazo.sub(forma_preferida, linea_corregida, count=1)
             print(f"Línea corregida: '{linea_corregida}'")
-            # Ahora corregimos la línea original usando la información de las palabras encontradas
-            arreglo_textos[i] = linea_corregida
             return i, arreglo_textos
     print(f"\n--- Búsqueda finalizada ---")
     print("Ninguna línea contiene todas las palabras requeridas.")
-    return None, None

     Args:
         arreglo (list): Lista de strings de texto extraído (limpios).
         conceptos_requeridos (list): Lista de diccionarios, donde cada diccionario define un concepto:
+                                    Ej: {'preferida': 'nacimiento', 'alternativas': ['nacimento', 'nacimuento']}
     Returns:
+        tuple: (índice, arreglo_corregido) si se encuentra, o (None, None) si no se encuentra.
     """
+    print(f"\n--- Entre a busqueda palabras index ---")
     # Paso 1: Normalizar los conceptos y prepararlos para la búsqueda y corrección
     conceptos_preparados = []
     for concepto in conceptos_requeridos:
+        print("Preparación de conceptos, estoy en el concepto: ", concepto)
         preferida = concepto['preferida'].lower().replace(" ", "")
         alternativas = [alt.lower().replace(" ", "") for alt in concepto.get('alternativas', [])]
         # Combinamos la preferida con las alternativas para la búsqueda
         todas_las_formas = [preferida] + alternativas
+        print("Todas las formas quedó como: ", todas_las_formas)
         conceptos_preparados.append({
             'preferida': preferida,
             'todas_las_formas': todas_las_formas,
         })
+        print("Conceptos preparados quedó como: ", conceptos_preparados)
     for i, texto_linea in enumerate(arreglo_textos):
         texto_linea_lower = texto_linea.lower()
+        print("Trabajando la línea: ", texto_linea_lower)
         # Variables para seguir el rastro de la línea actual
+        es_coincidencia_completa = False
+        print("La var es_coincidencia_completa empieza como false...")
         palabras_encontradas_en_linea = {} # Almacena {forma_encontrada: forma_preferida}
         # Paso 2: Verificar si TODAS las condiciones se cumplen en esta línea
         for concepto in conceptos_preparados:
             encontrado_en_esta_linea = False
+            print("Revisando CONCEPTO: ", concepto)
             # Buscamos si alguna forma (preferida o alternativa) está en la línea
             for forma in concepto['todas_las_formas']:
                     # Guardamos qué forma se encontró y cuál es la preferida
                     palabras_encontradas_en_linea[forma] = concepto['preferida']
+                    # print("Estoy por hacer break porque encontré la línea...")
+                    # # Hemos encontrado una forma para este concepto, pasamos al siguiente concepto
+                    # break
+            print("Paso if encontrado_en_esta_linea es True...")
+            if encontrado_en_esta_linea:
+                es_coincidencia_completa = True
+                print(f"Línea {i}: Concepto '{concepto['preferida']}' : Encontrado.")
+                print("Estoy por hacer break por que es_coincidencia_completa es True...")
                 break # Si falta un concepto, pasamos a la siguiente línea del arreglo
+        print("Paso: if es_coincidencia_completa:")
         # Paso 3: Si se encontró una coincidencia completa, corregimos la línea y la retornamos
         if es_coincidencia_completa:
+            print("Aquí llega cuando encuentra algo, en su línea respectiva, pero cuando no encuentra nada, se queda en cero.")
             print(f"ÉXITO: Coincidencia completa en el índice {i}.")
             print(f"Texto linea es: {texto_linea}")
             linea_corregida = texto_linea
             for forma_encontrada, forma_preferida in palabras_encontradas_en_linea.items():
                 patron_reemplazo = re.compile(re.escape(forma_encontrada), re.IGNORECASE)
                 linea_corregida = patron_reemplazo.sub(forma_preferida, linea_corregida, count=1)
             print(f"Línea corregida: '{linea_corregida}'")
+            arreglo_textos[i] = linea_corregida
             return i, arreglo_textos
+    print("Paso: Búsqueda finalizada.:")
     print(f"\n--- Búsqueda finalizada ---")
     print("Ninguna línea contiene todas las palabras requeridas.")
+    return None, None

identificador.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import herramientas
 import conceptos_busqueda
 def identifica_documento(textos_extraidos_simplificados):
     """
@@ -21,8 +22,7 @@ def identifica_documento(textos_extraidos_simplificados):
         # Usamos 'getattr' para acceder dinámicamente al atributo correcto
         # del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
         conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)
-        print("Conceptos_Actuales usados: ", conceptos_actuales)
         # Llama a la función de búsqueda para el tipo de documento actual
         indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
             textos_extraidos_simplificados,
@@ -46,17 +46,26 @@ def identifica_ine(textos_extraidos_simplificados):
     #Buscaré los dos campos que tienen SOLO las INE antigüas: localidad y municipio.
     #Municipio
     conceptos_busqueda = [{'preferida': 'municipio', 'alternativas': ['']}]
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
     municipio_existe = True if indice is not None else False
     #Localidad
     conceptos_busqueda = [{'preferida': 'localidad', 'alternativas': ['']}]
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
     localidad_existe = True if indice is not None else False
     if municipio_existe and localidad_existe:
         tipo_ine = 'ine_antes'
     else:
         tipo_ine = 'ine_actual'
     return tipo_ine

 import herramientas
 import conceptos_busqueda
+import time
 def identifica_documento(textos_extraidos_simplificados):
     """
         # Usamos 'getattr' para acceder dinámicamente al atributo correcto
         # del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
         conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)
         # Llama a la función de búsqueda para el tipo de documento actual
         indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
             textos_extraidos_simplificados,
     #Buscaré los dos campos que tienen SOLO las INE antigüas: localidad y municipio.
     #Municipio
     conceptos_busqueda = [{'preferida': 'municipio', 'alternativas': ['']}]
+    print("Entrando a busqueda de municipio en buscar multiples palabras: ")
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
+    print("Salí de la búsqueda...")
     municipio_existe = True if indice is not None else False
+    print("Municipio existe: ", municipio_existe)
     #Localidad
     conceptos_busqueda = [{'preferida': 'localidad', 'alternativas': ['']}]
     indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
     localidad_existe = True if indice is not None else False
+    print("Localidad existe: ", localidad_existe)
     if municipio_existe and localidad_existe:
         tipo_ine = 'ine_antes'
     else:
         tipo_ine = 'ine_actual'
+    print("INE detectada es: ", tipo_ine)
     return tipo_ine

tools/__pycache__/ine_actual.cpython-311.pyc DELETED Viewed

Binary file (544 Bytes)

tools/__pycache__/ine_antes.cpython-311.pyc DELETED Viewed

Binary file (694 Bytes)

tools/ine_actual.py CHANGED Viewed

@@ -1,5 +1,9 @@
 def obtener_vigencia(indice, textos_extraidos_libres):
     #Aquí recibo el índice porque lo que quiero es la posición no el texto.
     print("El índice es:", indice)

+import time
 def obtener_vigencia(indice, textos_extraidos_libres):
+    print("Estoy en obtener vigencia ine actual.")
     #Aquí recibo el índice porque lo que quiero es la posición no el texto.
     print("El índice es:", indice)