SMART_KYC_OCR

Sleeping

App Files Files Community

gopichandra commited on 28 days ago

Commit

f7a759e

verified ·

1 Parent(s): 0edec5e

Update utils.py

Browse files

Files changed (1) hide show

utils.py +8 -43

utils.py CHANGED Viewed

@@ -1,43 +1,26 @@
 from paddleocr import PaddleOCR
 import re
-# Initialize OCR once (English). Download happens first time it's used.
-# If you want to support other langs, set lang='en' -> 'en'|'hi'|'mr'... etc, or 'en'+'multilang models'.
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
 def _extract_dob(lines):
-    """
-    Try multiple formats:
-      - dd/mm/yyyy | dd-mm-yyyy | dd.mm.yyyy
-      - yyyy-mm-dd
-      - Year of Birth lines (YOB / YEAR / BIRTH)
-    """
-    # dd{sep}mm{sep}yyyy
     for line in lines:
         m = re.search(r'\b\d{2}[./-]\d{2}[./-]\d{4}\b', line)
-        if m:
-            return m.group(0)
-    # yyyy-mm-dd
     for line in lines:
         m = re.search(r'\b\d{4}-\d{2}-\d{2}\b', line)
-        if m:
-            return m.group(0)
-    # Year only if labeled as YOB/Year/Birth
     for line in lines:
         m = re.search(r'\b(19|20)\d{2}\b', line)
         if m and any(lbl in line.upper() for lbl in ["YOB", "YEAR", "BIRTH"]):
             return m.group(0)
     return "Not found"
 def extract_kyc_fields(file_path: str) -> dict:
     try:
-        # OCR text extraction
         result = ocr.ocr(file_path, cls=True)
-        # Flatten to text lines
         lines = []
         for block in result:
             for line in block:
@@ -47,7 +30,6 @@ def extract_kyc_fields(file_path: str) -> dict:
         full_text = "\n".join(lines)
-        # Detect card type by patterns
         pan_match = re.search(r'\b[A-Z]{5}[0-9]{4}[A-Z]\b', full_text)
         aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', full_text)
@@ -56,21 +38,14 @@ def extract_kyc_fields(file_path: str) -> dict:
         elif aadhaar_match:
             card_type = "AADHAAR"
         else:
-            return {
-                "card_type": "UNKNOWN",
-                "error": "Could not identify document as PAN or Aadhaar."
-            }
         response = {"card_type": card_type}
-        # ===================== PAN CARD =====================
         if card_type == "PAN":
             response["pan_number"] = pan_match.group(0)
-            # DOB
             response["dob"] = _extract_dob(lines)
-            # Name (heuristic: next lines after "INCOME TAX DEPARTMENT")
             name = "Not found"
             for i in range(len(lines)):
                 if "INCOME TAX DEPARTMENT" in lines[i].upper():
@@ -87,31 +62,22 @@ def extract_kyc_fields(file_path: str) -> dict:
                     break
             response["name"] = name
-        # ===================== AADHAAR CARD =====================
-        else:
             response["aadhaar_number"] = aadhaar_match.group(0)
-            # DOB / YOB
             response["dob"] = _extract_dob(lines)
-            # Gender
             gender = "Not found"
             for line in lines:
                 up = line.upper()
                 if "TRANSGENDER" in up:
-                    gender = "TRANSGENDER"
-                    break
                 if "FEMALE" in up:
-                    gender = "FEMALE"
-                    break
                 if "MALE" in up:
-                    gender = "MALE"
-                    break
             response["gender"] = gender
-            # Name: usually line before DOB or first reasonable line without digits
             name = "Not found"
-            # try line before a date line
             for i, line in enumerate(lines):
                 if re.search(r'\d{2}[./-]\d{2}[./-]\d{4}', line) and i > 0:
                     candidate = lines[i - 1].strip()
@@ -122,7 +88,6 @@ def extract_kyc_fields(file_path: str) -> dict:
                     ):
                         name = candidate
                         break
-            # fallback
             if name == "Not found":
                 for line in lines:
                     candidate = line.strip()

 from paddleocr import PaddleOCR
 import re
+# Initialize OCR for English
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
 def _extract_dob(lines):
     for line in lines:
         m = re.search(r'\b\d{2}[./-]\d{2}[./-]\d{4}\b', line)
+        if m: return m.group(0)
     for line in lines:
         m = re.search(r'\b\d{4}-\d{2}-\d{2}\b', line)
+        if m: return m.group(0)
     for line in lines:
         m = re.search(r'\b(19|20)\d{2}\b', line)
         if m and any(lbl in line.upper() for lbl in ["YOB", "YEAR", "BIRTH"]):
             return m.group(0)
     return "Not found"
 def extract_kyc_fields(file_path: str) -> dict:
     try:
         result = ocr.ocr(file_path, cls=True)
         lines = []
         for block in result:
             for line in block:
         full_text = "\n".join(lines)
         pan_match = re.search(r'\b[A-Z]{5}[0-9]{4}[A-Z]\b', full_text)
         aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', full_text)
         elif aadhaar_match:
             card_type = "AADHAAR"
         else:
+            return {"card_type": "UNKNOWN", "error": "Could not identify document as PAN or Aadhaar."}
         response = {"card_type": card_type}
         if card_type == "PAN":
             response["pan_number"] = pan_match.group(0)
             response["dob"] = _extract_dob(lines)
             name = "Not found"
             for i in range(len(lines)):
                 if "INCOME TAX DEPARTMENT" in lines[i].upper():
                     break
             response["name"] = name
+        else:  # AADHAAR
             response["aadhaar_number"] = aadhaar_match.group(0)
             response["dob"] = _extract_dob(lines)
             gender = "Not found"
             for line in lines:
                 up = line.upper()
                 if "TRANSGENDER" in up:
+                    gender = "TRANSGENDER"; break
                 if "FEMALE" in up:
+                    gender = "FEMALE"; break
                 if "MALE" in up:
+                    gender = "MALE"; break
             response["gender"] = gender
             name = "Not found"
             for i, line in enumerate(lines):
                 if re.search(r'\d{2}[./-]\d{2}[./-]\d{4}', line) and i > 0:
                     candidate = lines[i - 1].strip()
                     ):
                         name = candidate
                         break
             if name == "Not found":
                 for line in lines:
                     candidate = line.strip()