rad / identificador.py
Moibe's picture
Facilitador de procesamiento de nuevos documentos
93a5ed3
raw
history blame
1.52 kB
import herramientas
import conceptos_busqueda
def identifica_documento(textos_extraidos_simplificados):
"""
Busca el tipo de documento en el texto, probando con una lista de documentos.
Args:
textos_extraidos_simplificados (list): Lista de strings con el texto a analizar.
Returns:
str: El nombre del primer documento encontrado ('dni', 'pasaporte', etc.),
o None si ninguno de los documentos fue identificado.
"""
documentos = ['ine', 'dni', 'pasaporte']
for tipo_documento in documentos:
# Usamos 'getattr' para acceder dinámicamente al atributo correcto
# del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)
# Llama a la función de búsqueda para el tipo de documento actual
indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
textos_extraidos_simplificados,
conceptos_actuales
)
# Si la búsqueda encuentra un resultado, salimos inmediatamente y retornamos
# el nombre del documento.
if indice is not None:
# Puedes retornar el tipo_documento y los textos corregidos
# return tipo_documento, textos_corregidos
# O simplemente el tipo de documento, como en tu ejemplo
return tipo_documento
# Si el bucle termina sin encontrar ningún documento, retornamos None
return None