Spaces:

rahul7star
/

OCR

Sleeping

rahul7star commited on 24 days ago

Commit

98c9504

verified ·

1 Parent(s): 3f3cb7c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,11 @@
-from transformers import TrOCRProcessor, VisionEncoderDecoderModel
-import easyocr
-from PIL import Image, ImageDraw
-import numpy as np
 import gradio as gr
 import requests
 from io import BytesIO
 import json
 # TrOCR model for recognition
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
@@ -27,16 +27,14 @@ def detect_text_trocr_json(image_file, image_url):
     if image is None:
         return None, "No image provided.", None
-    # Step 1: Detect bounding boxes with EasyOCR
     results = reader.readtext(np.array(image))
     draw = ImageDraw.Draw(image)
     words_json = []
-    paragraph_json = []
     for bbox, _, conf in results:
-        x_coords = [point[0] for point in bbox]
-        y_coords = [point[1] for point in bbox]
         x_min, y_min = min(x_coords), min(y_coords)
         x_max, y_max = max(x_coords), max(y_coords)
@@ -54,14 +52,16 @@ def detect_text_trocr_json(image_file, image_url):
             "confidence": float(conf)
         })
-    paragraph_json = words_json.copy()
     output_json = {
         "words": words_json,
-        "paragraphs": paragraph_json
     }
-    return image, json.dumps(output_json, indent=2), json.dumps(output_json)
 iface = gr.Interface(
     fn=detect_text_trocr_json,

 import gradio as gr
+from PIL import Image, ImageDraw
 import requests
 from io import BytesIO
+import numpy as np
 import json
+import easyocr
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 # TrOCR model for recognition
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
     if image is None:
         return None, "No image provided.", None
     results = reader.readtext(np.array(image))
     draw = ImageDraw.Draw(image)
     words_json = []
     for bbox, _, conf in results:
+        # Convert coordinates to float
+        x_coords = [float(point[0]) for point in bbox]
+        y_coords = [float(point[1]) for point in bbox]
         x_min, y_min = min(x_coords), min(y_coords)
         x_max, y_max = max(x_coords), max(y_coords)
             "confidence": float(conf)
         })
+    # For simplicity, treat words as paragraphs
+    paragraphs_json = words_json.copy()
     output_json = {
         "words": words_json,
+        "paragraphs": paragraphs_json
     }
+    json_str = json.dumps(output_json, indent=2)  # now serializable
+    return image, json_str, json_str
 iface = gr.Interface(
     fn=detect_text_trocr_json,