SMART_KYC_OCR

Sleeping

SMART_KYC_OCR / utils.py

Update utils.py

ae2e698 verified about 2 months ago

1.37 kB

	from paddleocr import PaddleOCR
	import re

	# Initialize OCR model only once
	ocr = PaddleOCR(use_angle_cls=True, lang='en') # lang='en' for English documents

	def extract_kyc_fields(file_path):
	try:
	# Run OCR
	result = ocr.ocr(file_path, cls=True)

	all_text = ""
	for line_group in result:
	for line in line_group:
	all_text += line[1][0] + "\n"

	# Aadhaar number (format with or without space/dash)
	aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', all_text)

	# DOB (any DD/MM/YYYY or similar)
	dob_match = re.search(r'\b\d{2}[\/\-]\d{2}[\/\-]\d{4}\b', all_text)

	# Name: try to detect a line with 'Name' or fallback to top line
	name = "Not found"
	for line in all_text.split("\n"):
	if re.search(r'\b(name\|naam\|namf)\b', line, re.IGNORECASE):
	name = line.split(":")[-1].strip() if ":" in line else line.strip()
	break

	if name == "Not found":
	name = all_text.split("\n")[0].strip()

	return {
	"aadhaar_number": aadhaar_match.group(0) if aadhaar_match else "Not found",
	"dob": dob_match.group(0) if dob_match else "Not found",
	"name": name
	}

	except Exception as e:
	return {"error": f"PaddleOCR failed: {str(e)}"}