Spaces:

VietCat
/

ViT5BaseNode

Sleeping

VietCat commited on Jun 11

Commit

4d593bf

1 Parent(s): 29e22ca

fix broken encoding text issue

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,13 @@ import os
 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-# ⚙️ Khắc phục lỗi không ghi được cache khi deploy trên HFS
 os.environ["HF_HOME"] = "/app/cache"
 os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
 app = Flask(__name__)
-# 🚀 Load mô hình
 model_name = "VietAI/vit5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
@@ -21,10 +21,11 @@ def summarize():
     if not text:
         return jsonify({"error": "Missing 'text' field"}), 400
-    # ⚠️ Giới hạn đầu vào (ViT5-base tối đa 512 tokens)
-    inputs = tokenizer.encode(text, return_tensors="pt", max_length=512, truncation=True)
-    # ✅ Tham số sinh văn bản chống lặp + chất lượng cao
     summary_ids = model.generate(
         inputs,
         max_length=100,

 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Set thư mục cache hợp lệ cho Hugging Face
 os.environ["HF_HOME"] = "/app/cache"
 os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
 app = Flask(__name__)
+# Load mô hình và tokenizer
 model_name = "VietAI/vit5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
     if not text:
         return jsonify({"error": "Missing 'text' field"}), 400
+    # ✅ Thêm tiền tố đúng kiểu huấn luyện
+    prompt = f"summarize: {text}"
+    inputs = tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)
+    # Generate với các tham số tối ưu
     summary_ids = model.generate(
         inputs,
         max_length=100,