Spaces:

deddoggo
/

chatbot_demo

Paused

File size: 15,379 Bytes

# app.py
# File triển khai hoàn chỉnh cho đồ án Chatbot Luật Giao thông
# Tác giả: (Tên của bạn)
# Ngày: (Ngày bạn tạo)

# --- PHẦN 1: IMPORT CÁC THƯ VIỆN CẦN THIẾT ---
print("Bắt đầu import các thư viện...")
import os
import sys
import json
import re
import time
from collections import defaultdict

# Core ML/DL và Unsloth
import torch
from unsloth import FastLanguageModel
from transformers import TextStreamer

# RAG - Retrieval
import faiss
from sentence_transformers import SentenceTransformer
from rank_bm25 import BM25Okapi
import numpy as np

# Deployment
import gradio as gr

print("✅ Import thư viện thành công.")

# --- PHẦN 2: CẤU HÌNH VÀ TẢI TÀI NGUYÊN (MODELS & DATA) ---
# Phần này sẽ chỉ chạy một lần khi ứng dụng khởi động.

# Cấu hình mô hình
MAX_SEQ_LENGTH = 2048
DTYPE = None
LOAD_IN_4BIT = True
EMBEDDING_MODEL_NAME = "bkai-foundation-models/vietnamese-bi-encoder"
LLM_MODEL_NAME = "unsloth/Llama-3.2-3B-Instruct-bnb-4bit"
LAW_DATA_FILE = "luat_chi_tiet_output_openai_sdk_final_cleaned.json"

# Biến toàn cục để lưu các tài nguyên đã tải
# Điều này giúp tránh việc phải tải lại mô hình mỗi khi người dùng gửi yêu cầu.
MODELS_AND_DATA = {
    "llm_model": None,
    "tokenizer": None,
    "embedding_model": None,
    "faiss_index": None,
    "bm25_model": None,
    "chunks_data": None,
    "tokenized_corpus_bm25": None,
}

# --- Các hàm xử lý dữ liệu (từ các notebook của bạn) ---

def process_law_data_to_chunks(structured_data_input):
    """
    Hàm làm phẳng dữ liệu luật có cấu trúc chi tiết thành danh sách các chunks.
    Mỗi chunk chứa 'text' và 'metadata'.
    """
    flat_list = []
    articles_list = []
    if isinstance(structured_data_input, dict) and "article" in structured_data_input:
        articles_list = [structured_data_input]
    elif isinstance(structured_data_input, list):
        articles_list = structured_data_input
    else:
        print("Lỗi: Dữ liệu đầu vào không hợp lệ.")
        return flat_list

    for article_data in articles_list:
        if not isinstance(article_data, dict): continue
        article_metadata_base = {
            "source_document": article_data.get("source_document"),
            "article": article_data.get("article"),
            "article_title": article_data.get("article_title")
        }
        clauses = article_data.get("clauses", [])
        if not isinstance(clauses, list): continue

        for clause_data in clauses:
            if not isinstance(clause_data, dict): continue
            clause_metadata_base = article_metadata_base.copy()
            clause_metadata_base.update({
                "clause_number": clause_data.get("clause_number"),
                "clause_metadata_summary": clause_data.get("clause_metadata_summary")
            })
            points_in_clause = clause_data.get("points_in_clause", [])
            if not isinstance(points_in_clause, list): continue

            if points_in_clause:
                for point_data in points_in_clause:
                    if not isinstance(point_data, dict): continue
                    chunk_text = point_data.get("point_text_original") or point_data.get("violation_description_summary")
                    if not chunk_text: continue
                    
                    current_point_metadata = clause_metadata_base.copy()
                    point_specific_metadata = point_data.copy()
                    if "point_text_original" in point_specific_metadata:
                        del point_specific_metadata["point_text_original"]
                    current_point_metadata.update(point_specific_metadata)
                    final_metadata_cleaned = {k: v for k, v in current_point_metadata.items() if v is not None}
                    flat_list.append({"text": chunk_text, "metadata": final_metadata_cleaned})
            else:
                chunk_text = clause_data.get("clause_text_original")
                if chunk_text:
                    current_clause_metadata = clause_metadata_base.copy()
                    additional_clause_info = {k: v for k, value in clause_data.items() if k not in ["clause_text_original", "points_in_clause", "clause_number", "clause_metadata_summary"]}
                    if additional_clause_info:
                        current_clause_metadata.update(additional_clause_info)
                    final_metadata_cleaned = {k: v for k, v in current_clause_metadata.items() if v is not None}
                    flat_list.append({"text": chunk_text, "metadata": final_metadata_cleaned})
    return flat_list

def tokenize_vi_for_bm25(text):
    """Hàm tokenize tiếng Việt đơn giản cho BM25."""
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    return text.split()

def load_all_resources():
    """
    Hàm chính để tải tất cả mô hình và dữ liệu cần thiết.
    Chỉ chạy một lần khi ứng dụng khởi động.
    """
    print("--- Bắt đầu quá trình tải tài nguyên ---")
    
    # 1. Tải mô hình LLM và Tokenizer
    print(f"1. Đang tải LLM và Tokenizer: {LLM_MODEL_NAME}...")
    llm_model, tokenizer = FastLanguageModel.from_pretrained(
        model_name=LLM_MODEL_NAME,
        max_seq_length=MAX_SEQ_LENGTH,
        dtype=DTYPE,
        load_in_4bit=LOAD_IN_4BIT,
    )
    FastLanguageModel.for_inference(llm_model)
    MODELS_AND_DATA["llm_model"] = llm_model
    MODELS_AND_DATA["tokenizer"] = tokenizer
    print("✅ Tải LLM và Tokenizer thành công.")

    # 2. Tải mô hình Embedding
    print(f"2. Đang tải Embedding Model: {EMBEDDING_MODEL_NAME}...")
    embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME, device="cuda" if torch.cuda.is_available() else "cpu")
    MODELS_AND_DATA["embedding_model"] = embedding_model
    print("✅ Tải Embedding Model thành công.")

    # 3. Tải và xử lý dữ liệu luật
    print(f"3. Đang tải và xử lý dữ liệu từ: {LAW_DATA_FILE}...")
    if not os.path.exists(LAW_DATA_FILE):
        raise FileNotFoundError(f"Không tìm thấy file dữ liệu luật: {LAW_DATA_FILE}. Vui lòng upload file này lên Space.")
    with open(LAW_DATA_FILE, 'r', encoding='utf-8') as f:
        raw_data_from_file = json.load(f)
    chunks_data = process_law_data_to_chunks(raw_data_from_file)
    MODELS_AND_DATA["chunks_data"] = chunks_data
    print(f"✅ Đã xử lý thành {len(chunks_data)} chunks.")

    # 4. Tạo BM25 Model
    print("4. Đang tạo BM25 Model...")
    corpus_texts = [chunk.get('text', '') for chunk in chunks_data]
    tokenized_corpus = [tokenize_vi_for_bm25(text) for text in corpus_texts]
    bm25_model = BM25Okapi(tokenized_corpus)
    MODELS_AND_DATA["bm25_model"] = bm25_model
    MODELS_AND_DATA["tokenized_corpus_bm25"] = tokenized_corpus
    print("✅ Tạo BM25 Model thành công.")

    # 5. Tạo FAISS Index
    print("5. Đang tạo FAISS Index...")
    texts_to_encode = [chunk.get('text', '') for chunk in chunks_data]
    chunk_embeddings = embedding_model.encode(texts_to_encode, convert_to_tensor=True, device=embedding_model.device)
    chunk_embeddings_np = chunk_embeddings.cpu().numpy().astype('float32')
    faiss.normalize_L2(chunk_embeddings_np)
    dimension = chunk_embeddings_np.shape[1]
    index = faiss.IndexFlatIP(dimension)
    index.add(chunk_embeddings_np)
    MODELS_AND_DATA["faiss_index"] = index
    print(f"✅ Tạo FAISS Index thành công với {index.ntotal} vectors.")

    print("\n--- Tải tài nguyên hoàn tất! Ứng dụng đã sẵn sàng. ---")

# --- PHẦN 3: CÁC HÀM LÕI CHO RAG ---

def search_relevant_laws(query_text, k=5, initial_k_multiplier=10, rrf_k_constant=60):
    """
    Hàm thực hiện Hybrid Search để tìm các đoạn luật liên quan.
    """
    # Lấy các tài nguyên đã tải
    embedding_model = MODELS_AND_DATA["embedding_model"]
    faiss_index = MODELS_AND_DATA["faiss_index"]
    chunks_data = MODELS_AND_DATA["chunks_data"]
    bm25_model = MODELS_AND_DATA["bm25_model"]

    if not all([embedding_model, faiss_index, chunks_data, bm25_model]):
        return "Lỗi: Tài nguyên chưa được tải xong. Vui lòng chờ."

    # 1. Semantic Search (FAISS)
    query_embedding = embedding_model.encode([query_text], convert_to_tensor=True, device=embedding_model.device)
    query_embedding_np = query_embedding.cpu().numpy().astype('float32')
    faiss.normalize_L2(query_embedding_np)
    num_candidates = min(k * initial_k_multiplier, faiss_index.ntotal)
    semantic_scores, semantic_indices = faiss_index.search(query_embedding_np, num_candidates)

    # 2. Keyword Search (BM25)
    tokenized_query = tokenize_vi_for_bm25(query_text)
    bm25_scores = bm25_model.get_scores(tokenized_query)
    bm25_results = sorted(enumerate(bm25_scores), key=lambda x: x[1], reverse=True)[:num_candidates]

    # 3. Reciprocal Rank Fusion (RRF)
    rrf_scores = defaultdict(float)
    if semantic_indices.size > 0:
        for rank, doc_idx in enumerate(semantic_indices[0]):
            if doc_idx != -1: rrf_scores[doc_idx] += 1.0 / (rrf_k_constant + rank)
    for rank, (doc_idx, score) in enumerate(bm25_results):
        if score > 0: rrf_scores[doc_idx] += 1.0 / (rrf_k_constant + rank)
    
    fused_results = sorted(rrf_scores.items(), key=lambda x: x[1], reverse=True)

    # 4. Lấy kết quả cuối cùng
    final_results = []
    for doc_idx, score in fused_results[:k]:
        result = chunks_data[doc_idx].copy()
        result['score'] = score
        final_results.append(result)
        
    return final_results

def generate_llm_response(query, context):
    """
    Hàm sinh câu trả lời từ LLM dựa trên query và context.
    """
    llm_model = MODELS_AND_DATA["llm_model"]
    tokenizer = MODELS_AND_DATA["tokenizer"]

    prompt = f"""Dưới đây là một số thông tin trích dẫn từ văn bản luật giao thông đường bộ Việt Nam.
Hãy SỬ DỤNG CÁC THÔNG TIN NÀY để trả lời câu hỏi một cách chính xác và đầy đủ.
Nếu câu hỏi đưa ra nhiều đáp án thì chọn 1 đáp án đúng nhất.

### Thông tin luật:
{context}

### Câu hỏi:
{query}

### Trả lời:"""

    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    generation_config = dict(
        max_new_tokens=300,
        temperature=0.2,
        top_p=0.7,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id,
        eos_token_id=tokenizer.eos_token_id
    )
    output_ids = llm_model.generate(**inputs, **generation_config)
    input_length = inputs.input_ids.shape[1]
    generated_ids = output_ids[0][input_length:]
    response_text = tokenizer.decode(generated_ids, skip_special_tokens=True)
    return response_text

# --- PHẦN 4: CÁC HÀM XỬ LÝ CHO GRADIO INTERFACE ---

def run_retriever_only(query):
    """
    Chức năng 1: Chỉ tìm kiếm và trả về các điều luật liên quan.
    """
    print(f"Chạy chức năng Retriever cho query: '{query}'")
    retrieved_results = search_relevant_laws(query)
    
    if isinstance(retrieved_results, str): # Xử lý trường hợp lỗi
        return retrieved_results

    if not retrieved_results:
        return "Không tìm thấy điều luật nào liên quan."

    # Định dạng output cho Gradio Markdown
    formatted_output = f"### Các điều luật liên quan nhất đến truy vấn của bạn:\n\n"
    for i, res in enumerate(retrieved_results):
        metadata = res.get('metadata', {})
        article = metadata.get('article', 'N/A')
        clause = metadata.get('clause_number', 'N/A')
        source = metadata.get('source_document', 'N/A')
        text = res.get('text', 'N/A')
        
        formatted_output += f"**{i+1}. Nguồn: {source} | Điều {article} | Khoản {clause}**\n"
        formatted_output += f"> {text}\n\n---\n\n"
        
    return formatted_output

def run_full_rag(query, progress=gr.Progress()):
    """
    Chức năng 2: Thực hiện toàn bộ pipeline RAG.
    """
    progress(0, desc="Bắt đầu...")
    
    # Bước 1: Truy xuất ngữ cảnh
    progress(0.2, desc="Đang tìm kiếm các điều luật liên quan (Hybrid Search)...")
    print(f"Chạy chức năng RAG cho query: '{query}'")
    retrieved_results = search_relevant_laws(query)
    
    if isinstance(retrieved_results, str) or not retrieved_results:
        context_for_llm = "Không tìm thấy thông tin luật liên quan."
        context_for_display = context_for_llm
    else:
        # Định dạng context cho LLM
        context_parts = []
        for res in retrieved_results:
            text = res.get('text', '')
            context_parts.append(text)
        context_for_llm = "\n\n---\n\n".join(context_parts)
        
        # Định dạng context để hiển thị cho người dùng
        context_for_display = run_retriever_only(query) # Tái sử dụng hàm retriever
    
    # Bước 2: Sinh câu trả lời
    progress(0.7, desc="Đã có ngữ cảnh, đang yêu cầu LLM tạo câu trả lời...")
    final_answer = generate_llm_response(query, context_for_llm)
    
    progress(1, desc="Hoàn tất!")
    
    return final_answer, context_for_display


# --- PHẦN 5: KHỞI CHẠY ỨNG DỤNG GRADIO ---

# Tải tài nguyên ngay khi script được chạy
load_all_resources()

with gr.Blocks(theme=gr.themes.Soft(), title="Chatbot Luật Giao thông") as demo:
    gr.Markdown(
        """
        # ⚖️ Chatbot Luật Giao thông Việt Nam
        Ứng dụng này sử dụng mô hình RAG (Retrieval-Augmented Generation) để trả lời các câu hỏi về luật giao thông.
        """
    )
    
    with gr.Tabs():
        # Tab 1: Chỉ tìm kiếm
        with gr.TabItem("Tìm kiếm Điều luật (Retriever)"):
            with gr.Row():
                retriever_query = gr.Textbox(label="Nhập nội dung cần tìm kiếm", placeholder="Ví dụ: Vượt đèn đỏ bị phạt bao nhiêu tiền?", scale=4)
                retriever_button = gr.Button("Tìm kiếm", variant="secondary", scale=1)
            retriever_output = gr.Markdown(label="Các điều luật liên quan")
        
        # Tab 2: Hỏi-đáp RAG đầy đủ
        with gr.TabItem("Hỏi-Đáp (RAG)"):
            with gr.Row():
                rag_query = gr.Textbox(label="Nhập câu hỏi của bạn", placeholder="Ví dụ: Phương tiện giao thông đường bộ gồm những loại nào?", scale=4)
                rag_button = gr.Button("Gửi câu hỏi", variant="primary", scale=1)
            rag_answer = gr.Textbox(label="Câu trả lời của Chatbot", lines=5)
            with gr.Accordion("Xem ngữ cảnh đã sử dụng để tạo câu trả lời", open=False):
                rag_context = gr.Markdown(label="Ngữ cảnh")

    # Xử lý sự kiện click
    retriever_button.click(fn=run_retriever_only, inputs=retriever_query, outputs=retriever_output)
    rag_button.click(fn=run_full_rag, inputs=rag_query, outputs=[rag_answer, rag_context])

if __name__ == "__main__":
    demo.launch(share=True) # share=True để tạo link public nếu chạy trên Colab/local