Spaces:

Moibe
/

rapicash

Sleeping

App Files Files Community

Moibe commited on Jul 8

Commit

d56556d

1 Parent(s): d35e97b

Nuevos campos DNI: fecha nacimiento y sexo

Browse files

Files changed (7) hide show

__pycache__/app.cpython-311.pyc +0 -0
__pycache__/funciones.cpython-311.pyc +0 -0
app.py +5 -2
documentos.py +5 -3
funciones.py +4 -2
herramientas.py +89 -6
obtenCampo.py +27 -2

__pycache__/app.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/app.cpython-311.pyc and b/__pycache__/app.cpython-311.pyc differ

__pycache__/funciones.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/funciones.cpython-311.pyc and b/__pycache__/funciones.cpython-311.pyc differ

app.py CHANGED Viewed

@@ -19,6 +19,7 @@ async def health_check():
     return JSONResponse(content={"status": "ok"}, status_code=200)
 @app.post("/echo-image/",
           description="Test endpoint que recibe y regresa la misma imagen, para probar envío, recepción y problemas con api o red.",
           summary="Summary"
           )
@@ -29,7 +30,8 @@ async def echo_image(image: UploadFile = File(...)):
     return StreamingResponse(BytesIO(contents), media_type=image.content_type)
 @app.post(
-        "/procesa_dni/",
         summary="Procesamiento de DNI")
 async def procesa_dni(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):
@@ -37,7 +39,8 @@ async def procesa_dni(image: UploadFile = File(...)):
     return await funciones.procesa_dni(image)
 @app.post(
-        "/procesa_pasaporte/",
         summary="Procesamiento de DNI")
 async def procesa_pasaporte(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):

     return JSONResponse(content={"status": "ok"}, status_code=200)
 @app.post("/echo-image/",
+          tags=["Health Check"],
           description="Test endpoint que recibe y regresa la misma imagen, para probar envío, recepción y problemas con api o red.",
           summary="Summary"
           )
     return StreamingResponse(BytesIO(contents), media_type=image.content_type)
 @app.post(
+        "/procesa_dni/",
+        tags=["Rapicash"],
         summary="Procesamiento de DNI")
 async def procesa_dni(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):
     return await funciones.procesa_dni(image)
 @app.post(
+        "/procesa_pasaporte/",
+        tags=["Rapicash"],
         summary="Procesamiento de DNI")
 async def procesa_pasaporte(image: UploadFile = File(...)):
     if not image.content_type.startswith("image/"):

documentos.py CHANGED Viewed

@@ -2,18 +2,20 @@ import obtenCampo
 async def dni(textos_extraidos):
     textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
     #Campos Buscados
     nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
     identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
-    return nombre, apellido, identificacion
 async def pasaporte(textos_extraidos):
     textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
     #Campos Buscados
     nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
     identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
     return nombre, apellido, identificacion

 async def dni(textos_extraidos):
     textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
+    print("Textos extraídos simplificados:")
+    print(textos_extraidos_simplificados)
     #Campos Buscados
     nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
     identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
+    fecha_nacimiento = obtenCampo.Fecha_Nacimiento(textos_extraidos, textos_extraidos_simplificados)
+    sexo = obtenCampo.Sexo(textos_extraidos, textos_extraidos_simplificados)
+    return nombre, apellido, identificacion, fecha_nacimiento, sexo
 async def pasaporte(textos_extraidos):
     textos_extraidos_simplificados = [texto.lower().replace(" ", "") for texto in textos_extraidos]
     #Campos Buscados
     nombre, apellido = obtenCampo.Nombre(textos_extraidos, textos_extraidos_simplificados)
     identificacion = obtenCampo.Identificacion(textos_extraidos, textos_extraidos_simplificados)
     return nombre, apellido, identificacion

funciones.py CHANGED Viewed

@@ -8,12 +8,14 @@ async def procesa_dni(image):
 	textos_extraidos = await herramientas.procesaImagen(image)
 	#Campos DNI Panamá.
-	nombre, apellido, identificacion = await documentos.dni(textos_extraidos)
 	return {
 		"nombre": nombre,
 		"apellido": apellido,
-		"identificacion": identificacion
 	}
 async def procesa_pasaporte(image):

 	textos_extraidos = await herramientas.procesaImagen(image)
 	#Campos DNI Panamá.
+	nombre, apellido, identificacion, fecha_nacimiento, sexo = await documentos.dni(textos_extraidos)
 	return {
 		"nombre": nombre,
 		"apellido": apellido,
+		"identificacion": identificacion,
+		"fecha_nacimiento": fecha_nacimiento,
+		"sexo": sexo
 	}
 async def procesa_pasaporte(image):

herramientas.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import tempfile
 import time
-import herramientas
 from gradio_client import Client, handle_file
 async def imageToTemp(image):
-    print("Estoy en imageToTemp...")
     try:
         with tempfile.NamedTemporaryFile(delete=False, suffix=f"_{image.filename}") as tmp_file:
@@ -37,10 +36,49 @@ def listaTextosExtraidos(dict_recibido):
 def buscaIndexPalabra(arreglo, palabra):
     palabra_limpia = palabra.lower().replace(" ", "")
-    for i, texto_limpio in enumerate(arreglo):
         if palabra_limpia in texto_limpio:
             return i
-    return 'error'
 def buscarPatronCedula(lista_textos):
     for i, texto in enumerate(lista_textos):
@@ -52,7 +90,7 @@ async def procesaImagen(image):
     temp_image = await imageToTemp(image)
-    client = Client("Moibe/api_rapicash")
     dict_recibido = client.predict(
             img=handle_file(temp_image),
             lang="en",
@@ -60,4 +98,49 @@ async def procesaImagen(image):
     )
     #Aquí es donde personalizo el proceso:
     textos_extraidos = listaTextosExtraidos(dict_recibido)
-    return textos_extraidos

 import tempfile
 import time
 from gradio_client import Client, handle_file
+import re
 async def imageToTemp(image):
     try:
         with tempfile.NamedTemporaryFile(delete=False, suffix=f"_{image.filename}") as tmp_file:
 def buscaIndexPalabra(arreglo, palabra):
     palabra_limpia = palabra.lower().replace(" ", "")
+    for i, texto_limpio in enumerate(arreglo):
         if palabra_limpia in texto_limpio:
             return i
+    return None # Cambiado de 'error' a None
+def buscaIndexMultiplesPalabras(arreglo, palabras_requeridas):
+    """
+    Busca el índice de la primera línea en un arreglo de textos
+    que contenga TODAS las palabras especificadas en palabras_requeridas.
+    Args:
+        arreglo (list): Una lista de strings (los textos limpios).
+        palabras_requeridas (list): Una lista de strings, donde cada string
+                                   es una palabra que debe estar presente en la línea.
+                                   La búsqueda es insensible a mayúsculas/minúsculas
+                                   y limpia espacios en las palabras requeridas.
+    Returns:
+        int: El índice de la primera línea que contiene todas las palabras,
+             o None si ninguna línea las contiene.
+    """
+    print("Estoy en busca palabras múltiples.")
+    # Limpiar y normalizar todas las palabras requeridas de una vez
+    palabras_requeridas_limpias = [p.lower().replace(" ", "") for p in palabras_requeridas]
+    print("Las palabras requeridas límpias son: ", palabras_requeridas_limpias)
+    for i, texto_linea in enumerate(arreglo):
+        # Convertir la línea actual a minúsculas para una comparación insensible a mayúsculas/minúsculas
+        texto_linea_lower = texto_linea.lower()
+        print("La línea que estoy analizando es: ", texto_linea_lower)
+        # Verificar si TODAS las palabras requeridas están en la línea actual
+        # Usamos 'all()' para asegurarnos de que CADA palabra_limpia esté en texto_linea_lower
+        if all(palabra_limpia in texto_linea_lower for palabra_limpia in palabras_requeridas_limpias):
+            print(f"Todas las palabras están en la línea {i}")
+            return i # Retorna el índice de la primera línea que cumple la condición
+    return None # Si ninguna línea contiene todas las palabras
 def buscarPatronCedula(lista_textos):
     for i, texto in enumerate(lista_textos):
     temp_image = await imageToTemp(image)
+    client = Client("BuzzwordMx/ai_ocr")
     dict_recibido = client.predict(
             img=handle_file(temp_image),
             lang="en",
     )
     #Aquí es donde personalizo el proceso:
     textos_extraidos = listaTextosExtraidos(dict_recibido)
+    return textos_extraidos
+def obtener_fecha(texto):
+    # El patrón busca:
+    # - "FECHADENACIMIENTO" (insensible a mayúsculas/minúsculas)
+    # - Seguido opcionalmente de CERO o MÁS caracteres que NO SEAN UN DÍGITO (lo que inicia la fecha).
+    #   Esto cubrirá ':', '.', espacios, o cualquier otro carácter de separación.
+    # - Captura el patrón de fecha: \d{1,2}-[A-Za-z0-9]{3}-\d{4}
+    patron = r"FECHADENACIMIENTO[^\d]*(\d{1,2}-[A-Za-z0-9]{3}-\d{4})"
+    match = re.search(patron, texto, re.IGNORECASE)
+    fecha_encontrada = None
+    if match:
+        fecha_encontrada = match.group(1)
+        if fecha_encontrada:
+            partes_fecha = fecha_encontrada.split('-')
+            if len(partes_fecha) == 3:
+                dia = partes_fecha[0]
+                mes = partes_fecha[1].lower() # Convierte el mes a minúsculas
+                año = partes_fecha[2]
+                return f"{dia}-{mes}-{año}"
+            else:
+                # Esto se ejecutaría si el formato de la fecha extraída no es el esperado (ej. 2 partes)
+                return fecha_encontrada
+    return None # Si no se encontró el patrón de fecha
+def obtener_sexo(texto):
+    # El patrón ahora busca "Sexo" O "Seno" (insensible a mayúsculas/minúsculas)
+    # Seguido opcionalmente de un ":"
+    # Seguido opcionalmente de espacios en blanco
+    # Captura la siguiente letra
+    patron = r"(Sexo|Seno):?\s*([A-Za-z])"
+    # re.search busca la primera ocurrencia del patrón en el texto
+    # re.IGNORECASE hace que la búsqueda sea insensible a mayúsculas/minúsculas para "Sexo" y "Seno"
+    match = re.search(patron, texto, re.IGNORECASE)
+    if match:
+        # match.group(2) devuelve lo que se capturó en el SEGUNDO grupo de paréntesis,
+        # que es la letra del sexo/seno. match.group(1) sería "Sexo" o "Seno".
+        return match.group(2)
+    else:
+        return None

obtenCampo.py CHANGED Viewed

@@ -4,7 +4,6 @@ import herramientas
 #Campos para DNI.
 def Nombre(textos_extraidos, textos_extraidos_limpios):
     indice = herramientas.buscaIndexPalabra(textos_extraidos_limpios, 'usual')
-    print(f"Indice es: {indice} y es del tipo {type(indice)}...")
     nombre = textos_extraidos[indice-2]
     apellido = textos_extraidos[indice-1]
     return nombre, apellido
@@ -12,4 +11,30 @@ def Nombre(textos_extraidos, textos_extraidos_limpios):
 def Identificacion(textos_extraidos, textos_extraidos_limpios):
    indice = herramientas.buscarPatronCedula(textos_extraidos_limpios)
    identificacion = textos_extraidos[indice]
-   return identificacion

 #Campos para DNI.
 def Nombre(textos_extraidos, textos_extraidos_limpios):
     indice = herramientas.buscaIndexPalabra(textos_extraidos_limpios, 'usual')
     nombre = textos_extraidos[indice-2]
     apellido = textos_extraidos[indice-1]
     return nombre, apellido
 def Identificacion(textos_extraidos, textos_extraidos_limpios):
    indice = herramientas.buscarPatronCedula(textos_extraidos_limpios)
    identificacion = textos_extraidos[indice]
+   return identificacion
+def Fecha_Nacimiento(textos_extraidos, textos_extraidos_limpios):
+    indice = herramientas.buscaIndexMultiplesPalabras(textos_extraidos_limpios, ['fecha', 'nacimiento'])
+    print("El índice de la fecha de nacimiento es: ", indice)
+    texto_fecha_nacimiento = textos_extraidos_limpios[indice] #En ésta ocasión estoy usando el texto limpio para que el patrón lo identifique más fácilmente.
+    print("Y su correspondiente texto es: " , texto_fecha_nacimiento)
+    fecha_nacimiento = herramientas.obtener_fecha(texto_fecha_nacimiento)
+    return fecha_nacimiento
+def Sexo(textos_extraidos, textos_extraidos_limpios):
+    indice = herramientas.buscaIndexPalabra(textos_extraidos_limpios, 'sexo')
+    if indice is None: # Comprobamos si el resultado es None (no encontrado)
+        indice = herramientas.buscaIndexPalabra(textos_extraidos_limpios, 'seno')
+        if indice is not None:
+            print(f"Se encontró una variación de sexo en el índice: {indice}")
+        else:
+            print("No se encontró ninguna forma de la palabra sexo.")
+            return None
+    else:
+        print(f"Se encontró palabra directamente.")
+    texto_campo_sexo = textos_extraidos[indice]
+    sexo = herramientas.obtener_sexo(texto_campo_sexo)
+    return sexo