rad

Sleeping

rad / identificador.py

Facilitador de procesamiento de nuevos documentos

93a5ed3 4 days ago

1.52 kB

	import herramientas
	import conceptos_busqueda

	def identifica_documento(textos_extraidos_simplificados):
	"""
	Busca el tipo de documento en el texto, probando con una lista de documentos.

	Args:
	textos_extraidos_simplificados (list): Lista de strings con el texto a analizar.

	Returns:
	str: El nombre del primer documento encontrado ('dni', 'pasaporte', etc.),
	o None si ninguno de los documentos fue identificado.
	"""

	documentos = ['ine', 'dni', 'pasaporte']

	for tipo_documento in documentos:
	# Usamos 'getattr' para acceder dinámicamente al atributo correcto
	# del objeto 'conceptos_busqueda', como 'conceptos_busqueda.dni'.
	conceptos_actuales = getattr(conceptos_busqueda, tipo_documento)

	# Llama a la función de búsqueda para el tipo de documento actual
	indice, textos_corregidos = herramientas.buscaIndexMultiplesPalabras(
	textos_extraidos_simplificados,
	conceptos_actuales
	)

	# Si la búsqueda encuentra un resultado, salimos inmediatamente y retornamos
	# el nombre del documento.
	if indice is not None:
	# Puedes retornar el tipo_documento y los textos corregidos
	# return tipo_documento, textos_corregidos

	# O simplemente el tipo de documento, como en tu ejemplo
	return tipo_documento

	# Si el bucle termina sin encontrar ningún documento, retornamos None
	return None