SMART_KYC_OCR

Sleeping

gopichandra commited on Aug 5

Commit

a8683a1

verified ·

1 Parent(s): 76bc21b

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -1,19 +1,22 @@
 import pytesseract
 from PIL import Image
 import re
-import io
-def extract_kyc_fields(image_bytes):
-    image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
-    text = pytesseract.image_to_string(image)
-    # Extract Aadhaar number pattern XXXX-XXXX-XXXX or XXXX XXXX XXXX
-    aadhaar = re.search(r'\b\d{4}[\s-]?\d{4}[\s-]?\d{4}\b', text)
-    dob = re.search(r'\d{2}[\/\-]\d{2}[\/\-]\d{4}', text)
-    name_match = re.findall(r'(?i)(Name|Narne|NAMF)\s*[:\-]?\s*(.*)', text)
-    return {
-        "aadhaar_number": aadhaar.group(0) if aadhaar else "Not found",
-        "dob": dob.group(0) if dob else "Not found",
-        "name": name_match[0][1] if name_match else "Not found"
-    }

 import pytesseract
 from PIL import Image
 import re
+def extract_kyc_fields(file_path):
+    try:
+        image = Image.open(file_path).convert("RGB")
+        text = pytesseract.image_to_string(image)
+        aadhaar = re.search(r'\b\d{4}[\s-]?\d{4}[\s-]?\d{4}\b', text)
+        dob = re.search(r'\d{2}[\/\-]\d{2}[\/\-]\d{4}', text)
+        name_line = next((line for line in text.split("\n") if re.search(r'(?i)name', line)), "")
+        name = name_line.split(":")[-1].strip() if ":" in name_line else name_line.strip()
+        return {
+            "aadhaar_number": aadhaar.group(0) if aadhaar else "Not found",
+            "dob": dob.group(0) if dob else "Not found",
+            "name": name if name else "Not found"
+        }
+    except Exception as e:
+        return {"error": str(e)}