Spaces:

tienanh2003
/

ocr

Sleeping

App Files Files Community

tienanh2003 commited on 24 days ago

Commit

df641a4

verified ·

1 Parent(s): 140f03e

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -50

app.py CHANGED Viewed

@@ -28,24 +28,24 @@ if device.type == 'cuda':
     torch.cuda.set_per_process_memory_fraction(GPU_MEMORY_FRACTION, device=0)
 # --- 2. Load model ---
-from transformers import AutoProcessor, BitsAndBytesConfig
-from transformers.models.qwen2_5_vl import Qwen2_5_VLForConditionalGeneration
-bnb = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_quant_type="nf4",
-    bnb_4bit_compute_dtype=torch.float16
-)
-processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
-    MODEL_ID,
-    quantization_config=bnb,
-    device_map="auto",
-    trust_remote_code=True
-).eval()
-processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id
 # --- 8. File handler ---
 import traceback
@@ -112,41 +112,45 @@ def handle_file(file, prompt, extra_prompt, max_new_tokens, progress=gr.Progress
         traceback.print_exc()
         return "error", f"[ERROR] handle_file unexpected: {e}"
 def run_inference(img: Image.Image, prompt: str = "", max_new_tokens: int = 512) -> str:
     if img.mode != "RGB":
         img = img.convert("RGB")
-    prompt_text = prompt.strip()
-    messages = [{
-        "role": "user",
-        "content": [
-            {"type": "image", "image": img},
-            {"type": "text", "text": prompt_text}
-        ]
-    }]
-    text_prompt = processor.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-    inputs = processor(
-        text=[text_prompt], images=[img], return_tensors="pt", padding=True
-    ).to(device)
-    with torch.inference_mode(), torch.cuda.amp.autocast(enabled=(device.type == 'cuda')):
-        gen = model.generate(
-            **inputs,
-            max_new_tokens=max_new_tokens,
-            do_sample=False,
-            eos_token_id=processor.tokenizer.eos_token_id
-        )
-    trimmed = [o[len(i):] for i, o in zip(inputs['input_ids'], gen)]
-    result = processor.tokenizer.batch_decode(
-        trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=True
-    )[0].strip()
-    return result
 # --- 9. Prompt templates & JSON export ---
 prompt_templates = {

     torch.cuda.set_per_process_memory_fraction(GPU_MEMORY_FRACTION, device=0)
 # --- 2. Load model ---
+# from transformers import AutoProcessor, BitsAndBytesConfig
+# from transformers.models.qwen2_5_vl import Qwen2_5_VLForConditionalGeneration
+# bnb = BitsAndBytesConfig(
+#     load_in_4bit=True,
+#     bnb_4bit_use_double_quant=True,
+#     bnb_4bit_quant_type="nf4",
+#     bnb_4bit_compute_dtype=torch.float16
+# )
+# processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
+# model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+#     MODEL_ID,
+#     quantization_config=bnb,
+#     device_map="auto",
+#     trust_remote_code=True
+# ).eval()
+# processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id
 # --- 8. File handler ---
 import traceback
         traceback.print_exc()
         return "error", f"[ERROR] handle_file unexpected: {e}"
+# def run_inference(img: Image.Image, prompt: str = "", max_new_tokens: int = 512) -> str:
+#     if img.mode != "RGB":
+#         img = img.convert("RGB")
+#     prompt_text = prompt.strip()
+#     messages = [{
+#         "role": "user",
+#         "content": [
+#             {"type": "image", "image": img},
+#             {"type": "text", "text": prompt_text}
+#         ]
+#     }]
+#     text_prompt = processor.apply_chat_template(
+#         messages, tokenize=False, add_generation_prompt=True
+#     )
+#     inputs = processor(
+#         text=[text_prompt], images=[img], return_tensors="pt", padding=True
+#     ).to(device)
+#     with torch.inference_mode(), torch.cuda.amp.autocast(enabled=(device.type == 'cuda')):
+#         gen = model.generate(
+#             **inputs,
+#             max_new_tokens=max_new_tokens,
+#             do_sample=False,
+#             eos_token_id=processor.tokenizer.eos_token_id
+#         )
+#     trimmed = [o[len(i):] for i, o in zip(inputs['input_ids'], gen)]
+#     result = processor.tokenizer.batch_decode(
+#         trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=True
+#     )[0].strip()
+#     return result
 def run_inference(img: Image.Image, prompt: str = "", max_new_tokens: int = 512) -> str:
     if img.mode != "RGB":
         img = img.convert("RGB")
+    return f"[DEBUG] Ảnh nhận: size={img.size}, prompt='{prompt[:30]}...'"
 # --- 9. Prompt templates & JSON export ---
 prompt_templates = {