VietCat commited on
Commit
4d593bf
·
1 Parent(s): 29e22ca

fix broken encoding text issue

Browse files
Files changed (1) hide show
  1. app.py +6 -5
app.py CHANGED
@@ -2,13 +2,13 @@ import os
2
  from flask import Flask, request, jsonify
3
  from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
4
 
5
- # ⚙️ Khắc phục lỗi không ghi được cache khi deploy trên HFS
6
  os.environ["HF_HOME"] = "/app/cache"
7
  os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
8
 
9
  app = Flask(__name__)
10
 
11
- # 🚀 Load mô hình
12
  model_name = "VietAI/vit5-base"
13
  tokenizer = AutoTokenizer.from_pretrained(model_name)
14
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
@@ -21,10 +21,11 @@ def summarize():
21
  if not text:
22
  return jsonify({"error": "Missing 'text' field"}), 400
23
 
24
- # ⚠️ Giới hạn đầu vào (ViT5-base tối đa 512 tokens)
25
- inputs = tokenizer.encode(text, return_tensors="pt", max_length=512, truncation=True)
 
26
 
27
- # Tham số sinh văn bản chống lặp + chất lượng cao
28
  summary_ids = model.generate(
29
  inputs,
30
  max_length=100,
 
2
  from flask import Flask, request, jsonify
3
  from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
4
 
5
+ # Set thư mục cache hợp lệ cho Hugging Face
6
  os.environ["HF_HOME"] = "/app/cache"
7
  os.environ["TRANSFORMERS_CACHE"] = "/app/cache/transformers"
8
 
9
  app = Flask(__name__)
10
 
11
+ # Load mô hình và tokenizer
12
  model_name = "VietAI/vit5-base"
13
  tokenizer = AutoTokenizer.from_pretrained(model_name)
14
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 
21
  if not text:
22
  return jsonify({"error": "Missing 'text' field"}), 400
23
 
24
+ # Thêm tiền tố đúng kiểu huấn luyện
25
+ prompt = f"summarize: {text}"
26
+ inputs = tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)
27
 
28
+ # Generate với các tham số tối ưu
29
  summary_ids = model.generate(
30
  inputs,
31
  max_length=100,