Model Card: Tóm tắt Tin tức Tài chính bằng ViT5-LoRA

Giới thiệu Model

Đây là một phiên bản được tinh chỉnh (fine-tune) của model VietAI/vit5-base bằng phương pháp LoRA (Low-Rank Adaptation), chuyên biệt cho tác vụ tóm tắt văn bản tin tức tài chính-kinh tế bằng tiếng Việt.

Điểm nổi bật của model này là nó chứng minh được rằng một phương pháp tinh chỉnh hiệu quả về mặt tài nguyên (Parameter-Efficient Fine-Tuning) có thể đạt được hiệu năng cạnh tranh và thậm chí vượt trội so với một model lớn hơn được full fine-tune, trong khi yêu cầu chi phí tính toán thấp hơn đáng kể.

Hiệu năng và Benchmarks

Model được đánh giá trên bộ dữ liệu test riêng biệt và so sánh với hai phiên bản khác để xác định rõ giá trị của quá trình fine-tune.

Bảng so sánh ROUGE Score (trên cùng tập Test)

Model	Kiến trúc	Phương pháp	ROUGE-L (F1)
`ViT5-base` (Gốc)	Base (~250M)	Zero-shot	14.39
`ViT5-large-summarization` (SOTA)	Large (~770M)	Full Fine-tune	36.41
`ViT5-base + LoRA` (Optimized)	Base (~250M)	LoRA (`r=32`)	40.70

Phân tích:

Model LoRA của bạn đã cải thiện hơn 26 điểm ROUGE-L so với model gốc, cho thấy hiệu quả vượt trội của việc fine-tune.
Quan trọng nhất, model LoRA của bạn đã vượt qua cả model SOTA large trên chính bộ dữ liệu chuyên ngành này, chứng tỏ tính hiệu quả của việc tinh chỉnh chuyên biệt.

Phân tích Chi phí vs. Hiệu năng

Tiêu chí	`ViT5-base + LoRA` (Optimized)	`ViT5-large` (SOTA)
Số tham số được train	~13 triệu	~770 triệu
Kích thước Checkpoint	~25 MB	~3.17 GB (nặng hơn > 120 lần)
Yêu cầu VRAM (Training)	Chạy tốt trên GPU T4 (15GB)	Yêu cầu GPU A100 (40GB+)

Quy trình Huấn luyện

Dữ liệu Training

Dataset: vietnamese-financial-news-data-for-summarization
- Training Set: 9,217 mẫu
- Validation Set: 1,153 mẫu
Nguồn dữ liệu: vnexpress.vn, cafef.vn, thanhnien.vn (Mục kinh tế, tài chính, kinh doanh).
Tiền xử lý: Văn bản đầu vào được thêm tiền tố "summarize: ", và được cắt/đệm đến max_src=1024 và max_tgt=256.

Siêu tham số (Hyperparameters)

Frameworks: PyTorch, Transformers, PEFT, Accelerate
Hardware: 1x NVIDIA T4 GPU (15GB VRAM)
Mixed Precision: BF16
Gradient Checkpointing: True
Optimizer: AdamW
Learning Rate: 2.0e-5
Epochs: 2 (Điểm tốt nhất đạt được ở epoch 0.69)
Effective Batch Size: 16 (per_device_train_batch_size=1, gradient_accumulation_steps=16)
LoRA Config: r=32, lora_alpha=64, lora_dropout=0.05, target_modules=["q", "k", "v", "o", "wi", "wo"]

Cách sử dụng

Model này yêu cầu tải model nền và áp dụng adapter LoRA.

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from peft import PeftModel

# Tên model nền và adapter LoRA trên Hugging Face Hub
base_model_id = "VietAI/vit5-base"
adapter_id = "mrstarkng/financial-summarization-vit5-sora"

# Tải tokenizer và base model
tokenizer = AutoTokenizer.from_pretrained(base_model_id)
base_model = AutoModelForSeq2SeqLM.from_pretrained(
    base_model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Tải và áp dụng LoRA adapter
model = PeftModel.from_pretrained(base_model, adapter_id)
model.eval()

# Thực hiện tóm tắt
article = "Dữ liệu từ Hội môi giới Bất động sản (VARS) cho thấy, giá căn hộ chung cư thứ cấp tại Hà Nội và TP.HCM trung bình đã đạt 70 - 80 triệu đồng/m²..."
input_text = "summarize: " + article

inputs = tokenizer(input_text, return_tensors="pt", max_length=1024, truncation=True).to(model.device)
outputs = model.generate(**inputs, max_length=256, num_beams=5)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(summary)

mrstarkng
/

financial-summarization-vit5-sora