SMART_KYC_OCR

Sleeping

App Files Files Community

gopichandra commited on Aug 6

Commit

a726fb2

verified ·

1 Parent(s): 8324e53

Update utils.py

Browse files

Files changed (1) hide show

utils.py +81 -45

utils.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from paddleocr import PaddleOCR
 import re
-# Initialize OCR with English and Tamil (or just 'en' if you want)
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
 def extract_kyc_fields(file_path):
@@ -15,54 +14,91 @@ def extract_kyc_fields(file_path):
                 if text:
                     lines.append(text)
-        # Combine all lines into one big string
         full_text = "\n".join(lines)
-        # Aadhaar Number – strictly 12 digits (grouped or not)
-        aadhaar = next((line for line in lines if re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', line)), "Not found")
-        # DOB – with or without label
-        dob = "Not found"
-        for line in lines:
-            match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
-            if match:
-                dob = match.group(0)
-                break
-        # Gender – look for common gender keywords
-        gender = "Not found"
-        for line in lines:
-            if "MALE" in line.upper():
-                gender = "MALE"
-                break
-            elif "FEMALE" in line.upper():
-                gender = "FEMALE"
-                break
-            elif "TRANSGENDER" in line.upper():
-                gender = "TRANSGENDER"
-                break
-        # Name – find most probable name line (usually near DOB)
-        name = "Not found"
-        for i, line in enumerate(lines):
-            # Assume name is just above DOB or gender
-            if "DOB" in line.upper() or "MALE" in line.upper() or "FEMALE" in line.upper():
-                if i > 0:
-                    possible_name = lines[i - 1]
-                    # Filter to avoid accidental text
-                    if (
-                        not any(x in possible_name.upper() for x in ["GOVERNMENT", "DOB", "MALE", "FEMALE", "YEAR"])
-                        and not re.search(r'\d', possible_name)
-                    ):
-                        name = possible_name.strip()
                         break
-        return {
-            "aadhaar_number": aadhaar,
-            "dob": dob,
-            "gender": gender,
-            "name": name
-        }
     except Exception as e:
         return {"error": f"OCR processing failed: {str(e)}"}

 from paddleocr import PaddleOCR
 import re
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
 def extract_kyc_fields(file_path):
                 if text:
                     lines.append(text)
         full_text = "\n".join(lines)
+        # PAN pattern: 5 letters + 4 digits + 1 letter
+        pan_match = re.search(r'\b[A-Z]{5}[0-9]{4}[A-Z]\b', full_text)
+        # Aadhaar pattern: 12 digits
+        aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', full_text)
+        # Check which type
+        if pan_match:
+            card_type = "PAN"
+        elif aadhaar_match:
+            card_type = "AADHAAR"
+        else:
+            card_type = "UNKNOWN"
+        response = {"card_type": card_type}
+        if card_type == "AADHAAR":
+            # Aadhaar
+            response["aadhaar_number"] = aadhaar_match.group(0)
+            # DOB
+            dob = "Not found"
+            for line in lines:
+                match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
+                if match:
+                    dob = match.group(0)
+                    break
+            response["dob"] = dob
+            # Gender
+            gender = "Not found"
+            for line in lines:
+                if "MALE" in line.upper():
+                    gender = "MALE"
+                    break
+                elif "FEMALE" in line.upper():
+                    gender = "FEMALE"
+                    break
+            response["gender"] = gender
+            # Name
+            name = "Not found"
+            for i, line in enumerate(lines):
+                if "DOB" in line.upper():
+                    if i > 0:
+                        possible_name = lines[i - 1]
+                        if (
+                            not any(x in possible_name.upper() for x in ["GOVERNMENT", "MALE", "FEMALE"])
+                            and not re.search(r'\d', possible_name)
+                        ):
+                            name = possible_name.strip()
+                            break
+            response["name"] = name
+        elif card_type == "PAN":
+            # PAN
+            response["pan_number"] = pan_match.group(0)
+            # DOB
+            dob = "Not found"
+            for line in lines:
+                if "DATE OF BIRTH" in line.upper():
+                    match = re.search(r'\d{2}[/-]\d{2}[/-]\d{4}', line)
+                    if match:
+                        dob = match.group(0)
                         break
+            response["dob"] = dob
+            # Name: first line after heading usually
+            name = "Not found"
+            for i, line in enumerate(lines):
+                if "INCOME TAX DEPARTMENT" in line.upper():
+                    if i + 1 < len(lines):
+                        possible_name = lines[i + 1]
+                        if not re.search(r'\d', possible_name):
+                            name = possible_name.strip()
+                            break
+            response["name"] = name
+        else:
+            response["error"] = "Unable to determine document type."
+        return response
     except Exception as e:
         return {"error": f"OCR processing failed: {str(e)}"}