SMART_KYC_OCR

Sleeping

App Files Files Community

gopichandra commited on Aug 6

Commit

2c3e33d

verified ·

1 Parent(s): a726fb2

Update utils.py

Browse files

Files changed (1) hide show

utils.py +32 -33

utils.py CHANGED Viewed

@@ -16,13 +16,10 @@ def extract_kyc_fields(file_path):
         full_text = "\n".join(lines)
-        # PAN pattern: 5 letters + 4 digits + 1 letter
         pan_match = re.search(r'\b[A-Z]{5}[0-9]{4}[A-Z]\b', full_text)
-        # Aadhaar pattern: 12 digits
         aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', full_text)
-        # Check which type
         if pan_match:
             card_type = "PAN"
         elif aadhaar_match:
@@ -32,11 +29,38 @@ def extract_kyc_fields(file_path):
         response = {"card_type": card_type}
-        if card_type == "AADHAAR":
-            # Aadhaar
             response["aadhaar_number"] = aadhaar_match.group(0)
-            # DOB
             dob = "Not found"
             for line in lines:
                 match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
@@ -56,7 +80,7 @@ def extract_kyc_fields(file_path):
                     break
             response["gender"] = gender
-            # Name
             name = "Not found"
             for i, line in enumerate(lines):
                 if "DOB" in line.upper():
@@ -70,31 +94,6 @@ def extract_kyc_fields(file_path):
                             break
             response["name"] = name
-        elif card_type == "PAN":
-            # PAN
-            response["pan_number"] = pan_match.group(0)
-            # DOB
-            dob = "Not found"
-            for line in lines:
-                if "DATE OF BIRTH" in line.upper():
-                    match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
-                    if match:
-                        dob = match.group(0)
-                        break
-            response["dob"] = dob
-            # Name: first line after heading usually
-            name = "Not found"
-            for i, line in enumerate(lines):
-                if "INCOME TAX DEPARTMENT" in line.upper():
-                    if i + 1 < len(lines):
-                        possible_name = lines[i + 1]
-                        if not re.search(r'\d', possible_name):
-                            name = possible_name.strip()
-                            break
-            response["name"] = name
         else:
             response["error"] = "Unable to determine document type."

         full_text = "\n".join(lines)
+        # PAN Number Detection
         pan_match = re.search(r'\b[A-Z]{5}[0-9]{4}[A-Z]\b', full_text)
         aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', full_text)
         if pan_match:
             card_type = "PAN"
         elif aadhaar_match:
         response = {"card_type": card_type}
+        if card_type == "PAN":
+            response["pan_number"] = pan_match.group(0)
+            # Extract DOB as any line with DD/MM/YYYY
+            dob = "Not found"
+            for line in lines:
+                match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
+                if match:
+                    dob = match.group(0)
+                    break
+            response["dob"] = dob
+            # Improved name extraction: find first uppercase name-like line after "INCOME TAX DEPARTMENT"
+            name = "Not found"
+            for i in range(len(lines)):
+                if "INCOME TAX DEPARTMENT" in lines[i].upper():
+                    for j in range(i+1, len(lines)):
+                        possible = lines[j].strip()
+                        if (
+                            re.match(r'^[A-Z\s.]+$', possible) and
+                            not any(x in possible for x in ["INDIA", "DEPARTMENT", "GOVT"]) and
+                            not re.search(r'\d', possible)
+                        ):
+                            name = possible.strip()
+                            break
+                    break
+            response["name"] = name
+        elif card_type == "AADHAAR":
             response["aadhaar_number"] = aadhaar_match.group(0)
+            # Extract DOB
             dob = "Not found"
             for line in lines:
                 match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
                     break
             response["gender"] = gender
+            # Name logic for Aadhaar (same as before)
             name = "Not found"
             for i, line in enumerate(lines):
                 if "DOB" in line.upper():
                             break
             response["name"] = name
         else:
             response["error"] = "Unable to determine document type."