rad

Running

App Files Files Community

Moibe commited on 2 days ago

Commit

67b82ae

1 Parent(s): 93a5ed3

Vigencia INE antigua lista

Browse files

Files changed (9) hide show

app.py +10 -1
campos/ine_antes.py +0 -0
conceptos_busqueda.py +1 -1
documentos.py +23 -14
funciones.py +23 -2
herramientas.py +21 -74
herramientas_campos.py +76 -0
identificador.py +25 -2
obtenCampo.py +29 -9

app.py CHANGED Viewed

@@ -45,4 +45,13 @@ async def procesa_documento(image: UploadFile = File(...)):
 async def procesa_documento(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):
         return {"error": "El archivo no es una imagen"}
-    return await funciones.procesa_documento(image)

 async def procesa_documento(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):
         return {"error": "El archivo no es una imagen"}
+    return await funciones.procesa_documento(image)
+@app.post(
+        "/procesa_ine/",
+        tags=["Zurich"],
+        summary="Documentos México")
+async def procesa_documento(image: UploadFile = File(...)):
+    if not image.content_type.startswith("image/"):
+        return {"error": "El archivo no es una imagen"}
+    return await funciones.procesa_ine(image)

campos/ine_antes.py ADDED Viewed

File without changes

conceptos_busqueda.py CHANGED Viewed

@@ -10,5 +10,5 @@ pasaporte = [
 ine = [
         {'preferida': 'Instituto Nacional Electoral', 'alternativas': ['']},
-        {'preferida': 'México', 'alternativas': []}
         ]

 ine = [
         {'preferida': 'Instituto Nacional Electoral', 'alternativas': ['']},
+        {'preferida': 'MEXICO', 'alternativas': ['']}
         ]

documentos.py CHANGED Viewed

@@ -1,22 +1,31 @@
 import obtenCampo
-async def dni(textos_extraidos):
-    print("Iniciando búsqueda de dni.")
-    textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
-    print("Textos extraídos simplificados:")
-    print(textos_extraidos_simplificados)
     #Campos Buscados
-    nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
-    identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
-    fecha_nacimiento = obtenCampo.Fecha_Nacimiento(textos_extraidos, textos_extraidos_simplificados)
-    sexo = obtenCampo.Sexo(textos_extraidos, textos_extraidos_simplificados)
     return nombre, apellido, identificacion, fecha_nacimiento, sexo
-async def pasaporte(textos_extraidos):
-    textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
     #Campos Buscados
-    nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
-    identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
-    return nombre, apellido, identificacion

+import time
 import obtenCampo
+#Funciones para cada documento y sus respectivos campos.
+#Funciones para DNI Panameño.
+async def dni(textos_extraidos, textos_extraidos_simplificados):
     #Campos Buscados
+    nombre, apellido = obtenCampo.nombre(textos_extraidos, textos_extraidos_simplificados)
+    identificacion = obtenCampo.identificacion(textos_extraidos, textos_extraidos_simplificados)
+    fecha_nacimiento = obtenCampo.fecha_nacimiento(textos_extraidos, textos_extraidos_simplificados)
+    sexo = obtenCampo.sexo(textos_extraidos, textos_extraidos_simplificados)
     return nombre, apellido, identificacion, fecha_nacimiento, sexo
+async def pasaporte(textos_extraidos, textos_extraidos_simplificados):
     #Campos Buscados
+    nombre, apellido = obtenCampo.nombre(textos_extraidos, textos_extraidos_simplificados)
+    identificacion = obtenCampo.identificacion(textos_extraidos, textos_extraidos_simplificados)
+    return nombre, apellido, identificacion
+async def ine_antes(textos_extraidos, textos_extraidos_simplificados):
+    #Campos Buscados
+    vigencia = obtenCampo.vigencia(textos_extraidos, textos_extraidos_simplificados)
+    return vigencia

funciones.py CHANGED Viewed

@@ -1,7 +1,9 @@
 import documentos
 import herramientas
 import identificador
 async def identifica_documento(image):
 	textos_extraidos = await herramientas.procesaImagen(image)
@@ -19,7 +21,7 @@ async def procesa_documento(image):
 	if documento == 'dni':
 		# Llama a la función 'dni' si el documento es un DNI
-		nombre, apellido, identificacion, fecha_nacimiento, sexo = await documentos.dni(textos_extraidos)
 		print("Procesado como DNI.")
 		return {
@@ -33,7 +35,7 @@ async def procesa_documento(image):
 	elif documento == 'pasaporte':
 		# Llama a la función 'pasaporte' si el documento es un pasaporte
-		#nombre, apellido, identificacion, fecha_nacimiento, sexo = await documentos.pasaporte(textos_extraidos)
 		nombre, apellido, identificacion, pasaporte, fecha_nacimiento, sexo, fecha_expedicion, fecha_vencimiento = 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte'
 		print("Procesado como Pasaporte.")
@@ -56,4 +58,23 @@ async def procesa_documento(image):
 		#nombre, apellido, identificacion, fecha_nacimiento, sexo = None, None, None, None, None
 		return {
 		"error": "El documento no es un dni o pasaporte válido o requiere ser más legible.",
 	}

+import time
 import documentos
 import herramientas
 import identificador
 async def identifica_documento(image):
 	textos_extraidos = await herramientas.procesaImagen(image)
 	if documento == 'dni':
 		# Llama a la función 'dni' si el documento es un DNI
+		nombre, apellido, identificacion, fecha_nacimiento, sexo = await documentos.dni(textos_extraidos, textos_extraidos_simplificados)
 		print("Procesado como DNI.")
 		return {
 	elif documento == 'pasaporte':
 		# Llama a la función 'pasaporte' si el documento es un pasaporte
+		#nombre, apellido, identificacion, fecha_nacimiento, sexo = await documentos.pasaporte(textos_extraidos, textos_extraidos_simplificados)
 		nombre, apellido, identificacion, pasaporte, fecha_nacimiento, sexo, fecha_expedicion, fecha_vencimiento = 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte', 'pasaporte'
 		print("Procesado como Pasaporte.")
 		#nombre, apellido, identificacion, fecha_nacimiento, sexo = None, None, None, None, None
 		return {
 		"error": "El documento no es un dni o pasaporte válido o requiere ser más legible.",
+	}
+async def procesa_ine(image):
+	textos_extraidos = await herramientas.procesaImagen(image)
+	textos_extraidos_simplificados = herramientas.simplificaTextos(textos_extraidos)
+	#Identifico documento aún así como verificador sobre lo que sube el usuario.
+	documento = identificador.identifica_documento(textos_extraidos_simplificados)
+	print("Documento: ", documento)
+	if documento == 'ine':
+		tipo_ine = identificador.identifica_ine(textos_extraidos_simplificados)
+		print("Tipo ine es : ", tipo_ine)
+		if tipo_ine == 'ine_actual':
+			vigencia = await documentos.ine_actual(textos_extraidos, textos_extraidos_simplificados)
+		else:
+			vigencia = await documentos.ine_antes(textos_extraidos, textos_extraidos_simplificados)
+		return {
+		"vigencia": vigencia,
 	}

herramientas.py CHANGED Viewed

@@ -1,7 +1,25 @@
-import tempfile
 import time
 from gradio_client import Client, handle_file
-import re
 async def imageToTemp(image):
@@ -17,7 +35,6 @@ async def imageToTemp(image):
     except Exception as e:
         print(f"Error al procesar la imagen: {e}")
         return {"error": "Error al procesar la imagen"}
 def listaTextosExtraidos(dict_recibido):
@@ -101,7 +118,7 @@ def buscaIndexMultiplesPalabras(arreglo_textos, conceptos_requeridos):
             if not encontrado_en_esta_linea:
                 es_coincidencia_completa = False
-                print(f"Fallo en línea {i}: No se encontró el concepto '{concepto['preferida']}' ni sus alternativas.")
                 break # Si falta un concepto, pasamos a la siguiente línea del arreglo
         # Paso 3: Si se encontró una coincidencia completa, corregimos la línea y la retornamos
@@ -133,73 +150,3 @@ def buscaIndexMultiplesPalabras(arreglo_textos, conceptos_requeridos):
     print("Ninguna línea contiene todas las palabras requeridas.")
     return None, None
-########################################################################
-def buscarPatronCedula(lista_textos):
-    for i, texto in enumerate(lista_textos):
-        if texto and texto[0].isdigit() and '-' in texto:
-            return i
-    return 'error'
-async def procesaImagen(image):
-    try:
-        temp_image = await imageToTemp(image)
-        client = Client("BuzzwordMx/ai_ocr")
-        dict_recibido = client.predict(
-                img=handle_file(temp_image),
-                lang="en",
-                api_name="/predict"
-        )
-        #Aquí es donde personalizo el proceso:
-        textos_extraidos = listaTextosExtraidos(dict_recibido)
-        return textos_extraidos
-    except Exception as e:
-        print(f"Error al procesar el archivo: {e}")
-        return 'Error'
-def obtener_fecha(texto):
-    # El patrón busca:
-    # - "FECHADENACIMIENTO" (insensible a mayúsculas/minúsculas)
-    # - Seguido opcionalmente de CERO o MÁS caracteres que NO SEAN UN DÍGITO (lo que inicia la fecha).
-    #   Esto cubrirá ':', '.', espacios, o cualquier otro carácter de separación.
-    # - Captura el patrón de fecha: \d{1,2}-[A-Za-z0-9]{3}-\d{4}
-    patron = r"FECHADENACIMIENTO[^\d]*(\d{1,2}-[A-Za-z0-9]{3}-\d{4})"
-    match = re.search(patron, texto, re.IGNORECASE)
-    fecha_encontrada = None
-    if match:
-        fecha_encontrada = match.group(1)
-        if fecha_encontrada:
-            partes_fecha = fecha_encontrada.split('-')
-            if len(partes_fecha) == 3:
-                dia = partes_fecha[0]
-                mes = partes_fecha[1].lower() # Convierte el mes a minúsculas
-                año = partes_fecha[2]
-                return f"{dia}-{mes}-{año}"
-            else:
-                # Esto se ejecutaría si el formato de la fecha extraída no es el esperado (ej. 2 partes)
-                return fecha_encontrada
-    return None # Si no se encontró el patrón de fecha
-def obtener_sexo(texto):
-    # El patrón ahora busca "Sexo" O "Seno" (insensible a mayúsculas/minúsculas)
-    # Seguido opcionalmente de un ":"
-    # Seguido opcionalmente de espacios en blanco
-    # Captura la siguiente letra
-    patron = r"(Sexo|Seno):?\s*([A-Za-z])"
-    # re.search busca la primera ocurrencia del patrón en el texto
-    # re.IGNORECASE hace que la búsqueda sea insensible a mayúsculas/minúsculas para "Sexo" y "Seno"
-    match = re.search(patron, texto, re.IGNORECASE)
-    if match:
-        # match.group(2) devuelve lo que se capturó en el SEGUNDO grupo de paréntesis,
-        # que es la letra del sexo/seno. match.group(1) sería "Sexo" o "Seno".
-        return match.group(2)
-    else:
-        return None

+import re
 import time
+import tempfile
 from gradio_client import Client, handle_file
+async def procesaImagen(image):
+    try:
+        temp_image = await imageToTemp(image)
+        client = Client("BuzzwordMx/ai_ocr")
+        dict_recibido = client.predict(
+                img=handle_file(temp_image),
+                lang="en",
+                api_name="/predict"
+        )
+        #Aquí es donde personalizo el proceso:
+        textos_extraidos = listaTextosExtraidos(dict_recibido)
+        return textos_extraidos
+    except Exception as e:
+        print(f"Error al procesar el archivo: {e}")
+        return 'Error'
 async def imageToTemp(image):
     except Exception as e:
         print(f"Error al procesar la imagen: {e}")
         return {"error": "Error al procesar la imagen"}
 def listaTextosExtraidos(dict_recibido):
             if not encontrado_en_esta_linea:
                 es_coincidencia_completa = False
+                print(f"Línea {i}: Concepto '{concepto['preferida']}' : Revisado.")
                 break # Si falta un concepto, pasamos a la siguiente línea del arreglo
         # Paso 3: Si se encontró una coincidencia completa, corregimos la línea y la retornamos
     print("Ninguna línea contiene todas las palabras requeridas.")
     return None, None

herramientas_campos.py ADDED Viewed

	@@ -0,0 +1,76 @@

+import re
+#DOCUMENTO:DNI CAMPO:IDENTIFICACIÓN
+def buscarPatronCedula(lista_textos):
+    for i, texto in enumerate(lista_textos):
+        if texto and texto[0].isdigit() and '-' in texto:
+            return i
+    return 'error'
+#DOCUMENTO:DNI CAMPO:FECHA DE NACIMIENTO
+def obtener_fecha(texto):
+    # El patrón busca:
+    # - "FECHADENACIMIENTO" (insensible a mayúsculas/minúsculas)
+    # - Seguido opcionalmente de CERO o MÁS caracteres que NO SEAN UN DÍGITO (lo que inicia la fecha).
+    #   Esto cubrirá ':', '.', espacios, o cualquier otro carácter de separación.
+    # - Captura el patrón de fecha: \d{1,2}-[A-Za-z0-9]{3}-\d{4}
+    patron = r"FECHADENACIMIENTO[^\d]*(\d{1,2}-[A-Za-z0-9]{3}-\d{4})"
+    match = re.search(patron, texto, re.IGNORECASE)
+    fecha_encontrada = None
+    if match:
+        fecha_encontrada = match.group(1)
+        if fecha_encontrada:
+            partes_fecha = fecha_encontrada.split('-')
+            if len(partes_fecha) == 3:
+                dia = partes_fecha[0]
+                mes = partes_fecha[1].lower() # Convierte el mes a minúsculas
+                año = partes_fecha[2]
+                return f"{dia}-{mes}-{año}"
+            else:
+                # Esto se ejecutaría si el formato de la fecha extraída no es el esperado (ej. 2 partes)
+                return fecha_encontrada
+    return None # Si no se encontró el patrón de fecha
+#DOCUMENTO:DNI CAMPO:SEXO
+def obtener_genero(texto):
+    # El patrón ahora busca "Sexo" O "Seno" (insensible a mayúsculas/minúsculas)
+    # Seguido opcionalmente de un ":"
+    # Seguido opcionalmente de espacios en blanco
+    # Captura la siguiente letra
+    patron = r"(Sexo|Seno):?\s*([A-Za-z])"
+    # re.search busca la primera ocurrencia del patrón en el texto
+    # re.IGNORECASE hace que la búsqueda sea insensible a mayúsculas/minúsculas para "Sexo" y "Seno"
+    match = re.search(patron, texto, re.IGNORECASE)
+    if match:
+        # match.group(2) devuelve lo que se capturó en el SEGUNDO grupo de paréntesis,
+        # que es la letra del sexo/seno. match.group(1) sería "Sexo" o "Seno".
+        return match.group(2)
+    else:
+        return None
+#DOCUMENTO:INE CAMPO:VIGENCIA
+def obtener_vigencia(texto):
+    # La expresión regular busca:
+    # (\d{4})         -> Un grupo que captura 4 dígitos (el número de la izquierda)
+    # vigencia        -> La palabra literal "vigencia"
+    # (\d{4})         -> Otro grupo que captura 4 dígitos (el número de la DERECHA)
+    # El 're.search' devuelve un objeto 'match' si encuentra el patrón
+    match = re.search(r'\d+vigencia(\d+)', texto)
+    if match:
+        # Si se encuentra una coincidencia, match.group(1) contiene el primer grupo capturado.
+        # En este caso, el número a la derecha.
+        numero_derecha = match.group(1)
+        print(f"El número a la derecha es: {numero_derecha}")
+        return numero_derecha
+    else:
+        print("No se encontró el patrón en el texto.")
+        return None

identificador.py CHANGED Viewed

@@ -12,13 +12,16 @@ def identifica_documento(textos_extraidos_simplificados):
         str: El nombre del primer documento encontrado ('dni', 'pasaporte', etc.),
              o None si ninguno de los documentos fue identificado.
     """
     documentos = ['ine', 'dni', 'pasaporte']
     for tipo_documento in documentos:
         # Usamos 'getattr' para acceder dinámicamente al atributo correcto
         # del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
         conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)
         # Llama a la función de búsqueda para el tipo de documento actual
         indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
@@ -36,4 +39,24 @@ def identifica_documento(textos_extraidos_simplificados):
             return tipo_documento
     # Si el bucle termina sin encontrar ningún documento, retornamos None
-    return None

         str: El nombre del primer documento encontrado ('dni', 'pasaporte', etc.),
              o None si ninguno de los documentos fue identificado.
     """
+    print("Estoy en identifica documento...")
     documentos = ['ine', 'dni', 'pasaporte']
     for tipo_documento in documentos:
+        print("Revisando tipo de documento: ", tipo_documento)
         # Usamos 'getattr' para acceder dinámicamente al atributo correcto
         # del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
         conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)
+        print("Conceptos_Actuales usados: ", conceptos_actuales)
         # Llama a la función de búsqueda para el tipo de documento actual
         indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
             return tipo_documento
     # Si el bucle termina sin encontrar ningún documento, retornamos None
+    return None
+def identifica_ine(textos_extraidos_simplificados):
+    #Identifica si una INE es nueva o antigüa edición.
+    #Buscaré los dos campos que tienen SOLO las INE antigüas: localidad y municipio.
+    #Municipio
+    conceptos_busqueda = [{'preferida': 'municipio', 'alternativas': ['']}]
+    indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
+    municipio_existe = True if indice is not None else False
+    #Localidad
+    conceptos_busqueda = [{'preferida': 'localidad', 'alternativas': ['']}]
+    indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_simplificados, conceptos_busqueda)
+    localidad_existe = True if indice is not None else False
+    if municipio_existe and localidad_existe:
+        tipo_ine = 'ine_antes'
+    else:
+        tipo_ine = 'ine_actual'
+    return tipo_ine

obtenCampo.py CHANGED Viewed

@@ -1,19 +1,19 @@
 import herramientas
 #Campos para DNI.
-def Nombre(textos_extraidos, textos_extraidos_simplificados):
     indice = herramientas.buscaIndexPalabra(textos_extraidos_simplificados, 'usual')
     nombre = textos_extraidos[indice-2]
     apellido = textos_extraidos[indice-1]
     return nombre, apellido
-def Identificacion(textos_extraidos, textos_extraidos_simplificados):
-   indice = herramientas.buscarPatronCedula(textos_extraidos_simplificados)
    identificacion = textos_extraidos[indice]
    return identificacion
-def Fecha_Nacimiento(textos_extraidos, textos_extraidos_limpios):
     conceptos_busqueda = [
     {'preferida': 'fecha', 'alternativas': []},
@@ -26,10 +26,10 @@ def Fecha_Nacimiento(textos_extraidos, textos_extraidos_limpios):
     print("El índice de la fecha de nacimiento es: ", indice)
     texto_fecha_nacimiento = textos_extraidos_limpios[indice] #En ésta ocasión estoy usando el texto limpio para que el patrón lo identifique más fácilmente.
     print("Y su correspondiente texto es: " , texto_fecha_nacimiento)
-    fecha_nacimiento = herramientas.obtener_fecha(texto_fecha_nacimiento)
     return fecha_nacimiento
-def Sexo(textos_extraidos, textos_extraidos_limpios):
     conceptos_busqueda = [
     {'preferida': 'sexo', 'alternativas': ['sex', 'seno', 'sen']},
@@ -44,5 +44,25 @@ def Sexo(textos_extraidos, textos_extraidos_limpios):
     texto_genero = textos_extraidos_limpios[indice]
     print("Y su correspondiente texto es: " , texto_genero)
-    sexo = herramientas.obtener_sexo(texto_genero)
-    return sexo

 import herramientas
+import herramientas_campos
 #Campos para DNI.
+def nombre(textos_extraidos, textos_extraidos_simplificados):
     indice = herramientas.buscaIndexPalabra(textos_extraidos_simplificados, 'usual')
     nombre = textos_extraidos[indice-2]
     apellido = textos_extraidos[indice-1]
     return nombre, apellido
+def identificacion(textos_extraidos, textos_extraidos_simplificados):
+   indice = herramientas_campos.buscarPatronCedula(textos_extraidos_simplificados)
    identificacion = textos_extraidos[indice]
    return identificacion
+def fecha_nacimiento(textos_extraidos, textos_extraidos_limpios):
     conceptos_busqueda = [
     {'preferida': 'fecha', 'alternativas': []},
     print("El índice de la fecha de nacimiento es: ", indice)
     texto_fecha_nacimiento = textos_extraidos_limpios[indice] #En ésta ocasión estoy usando el texto limpio para que el patrón lo identifique más fácilmente.
     print("Y su correspondiente texto es: " , texto_fecha_nacimiento)
+    fecha_nacimiento = herramientas_campos.obtener_fecha(texto_fecha_nacimiento)
     return fecha_nacimiento
+def sexo(textos_extraidos, textos_extraidos_limpios):
     conceptos_busqueda = [
     {'preferida': 'sexo', 'alternativas': ['sex', 'seno', 'sen']},
     texto_genero = textos_extraidos_limpios[indice]
     print("Y su correspondiente texto es: " , texto_genero)
+    sexo = herramientas_campos.obtener_genero(texto_genero)
+    return sexo
+#Campos para INE
+def vigencia(textos_extraidos, textos_extraidos_limpios):
+    conceptos_busqueda = [
+    {'preferida': 'vigencia', 'alternativas': ['igencia']},
+    ]
+    indice, textos_extraidos_corregidos = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_limpios, conceptos_busqueda)
+    textos_extraidos_limpios = textos_extraidos_corregidos
+    print("El índice de genero es: ", indice)
+    texto_genero = textos_extraidos_limpios[indice]
+    print("Y su correspondiente texto es: " , texto_genero)
+    vigencia = herramientas_campos.obtener_vigencia(texto_genero)
+    return vigencia