Spaces:

deddoggo
/

chatbot_demo

Paused

App Files Files Community

deddoggo commited on Jul 1

Commit

5a1649d

1 Parent(s): 85f9d54

update

Browse files

Files changed (1) hide show

rag_pipeline.py +11 -32

rag_pipeline.py CHANGED Viewed

@@ -82,17 +82,14 @@ def initialize_components(data_path):
 def generate_response(query: str, components: dict) -> str:
     """
-    Tạo câu trả lời (single-turn) bằng cách sử dụng các thành phần đã được khởi tạo.
-    Phiên bản cuối cùng:
-    - Tương thích với mô hình Vision bằng cách sử dụng chat template.
-    - Nhận và sử dụng thông tin `matched_vehicle` từ retriever.
-    - Định dạng context với tóm tắt thông minh từ metadata.
     """
     print("--- Bắt đầu quy trình RAG cho query mới ---")
-    # === THAY ĐỔI 1: Nhận cả 2 giá trị trả về từ retriever ===
-    # 1. Truy xuất ngữ cảnh bằng retriever đã được nâng cấp
-    retrieved_results, matched_vehicle = search_relevant_laws(
         query_text=query,
         embedding_model=components["embedding_model"],
         faiss_index=components["faiss_index"],
@@ -102,35 +99,25 @@ def generate_response(query: str, components: dict) -> str:
         initial_k_multiplier=15
     )
-    # 2. Định dạng Context một cách thông minh
     if not retrieved_results:
         context = "Không tìm thấy thông tin luật liên quan trong cơ sở dữ liệu."
     else:
         context_parts = []
         for i, res in enumerate(retrieved_results):
             metadata = res.get('metadata', {})
             header = f"Trích dẫn {i+1}: Điều {metadata.get('article', 'N/A')}, Khoản {metadata.get('clause_number', 'N/A')} (Nguồn: {metadata.get('source_document', 'N/A')})"
             text = res.get('text', '*Nội dung không có*')
-            # === THAY ĐỔI 2: Thêm gợi ý về loại xe vào header ===
-            if matched_vehicle:
-                vehicle_keywords = {
-                    "ô tô": ["ô tô", "xe con"], "xe máy": ["xe máy", "xe mô tô"],
-                    "xe đạp": ["xe đạp", "xe thô sơ"], "máy kéo": ["máy kéo", "xe chuyên dùng"]
-                }
-                article_title_lower = metadata.get("article_title", "").lower()
-                if any(keyword in article_title_lower for keyword in vehicle_keywords.get(matched_vehicle, [])):
-                    header += f" [GỢI Ý: Thông tin này áp dụng cho {matched_vehicle.upper()}]"
             context_parts.append(f"{header}\n{text}")
         context = "\n\n---\n\n".join(context_parts)
-    # 3. Xây dựng Prompt bằng Chat Template
     print("--- Xây dựng prompt bằng chat template ---")
     llm_model = components["llm_model"]
     tokenizer = components["tokenizer"]
-    # Tạo cấu trúc tin nhắn theo chuẩn
     messages = [
         {
             "role": "system",
@@ -149,19 +136,11 @@ def generate_response(query: str, components: dict) -> str:
         }
     ]
-    # === THAY ĐỔI 3 (Cốt lõi): Sử dụng apply_chat_template ===
-    # Phương thức này sẽ tạo ra chuỗi prompt hoàn chỉnh với các token đặc biệt,
-    # tương thích với cả mô hình text và vision (khi không có ảnh).
-    prompt = tokenizer.apply_chat_template(
-        messages,
-        tokenize=False,
-        add_generation_prompt=True
-    )
     # 4. Tạo câu trả lời từ LLM
     print("--- Bắt đầu tạo câu trả lời từ LLM ---")
-    # Tokenize chuỗi prompt đã được định dạng đúng
     inputs = tokenizer([prompt], return_tensors="pt").to(llm_model.device)
     generation_config = dict(
@@ -176,4 +155,4 @@ def generate_response(query: str, components: dict) -> str:
     response_text = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     print("--- Tạo câu trả lời hoàn tất ---")
-    return response_text

 def generate_response(query: str, components: dict) -> str:
     """
+    Tạo câu trả lời (single-turn).
+    Phiên bản đơn giản hóa, không có logic vehicle_type.
     """
     print("--- Bắt đầu quy trình RAG cho query mới ---")
+    # === THAY ĐỔI 1: Chỉ nhận 1 giá trị trả về ===
+    # 1. Truy xuất ngữ cảnh
+    retrieved_results = search_relevant_laws(
         query_text=query,
         embedding_model=components["embedding_model"],
         faiss_index=components["faiss_index"],
         initial_k_multiplier=15
     )
+    # === THAY ĐỔI 2: Loại bỏ logic vehicle_type trong context ===
+    # 2. Định dạng Context
     if not retrieved_results:
         context = "Không tìm thấy thông tin luật liên quan trong cơ sở dữ liệu."
     else:
         context_parts = []
         for i, res in enumerate(retrieved_results):
             metadata = res.get('metadata', {})
+            # Tạo header đơn giản, không có gợi ý
             header = f"Trích dẫn {i+1}: Điều {metadata.get('article', 'N/A')}, Khoản {metadata.get('clause_number', 'N/A')} (Nguồn: {metadata.get('source_document', 'N/A')})"
             text = res.get('text', '*Nội dung không có*')
             context_parts.append(f"{header}\n{text}")
         context = "\n\n---\n\n".join(context_parts)
+    # 3. Xây dựng Prompt bằng Chat Template (giữ nguyên logic tương thích Vision)
     print("--- Xây dựng prompt bằng chat template ---")
     llm_model = components["llm_model"]
     tokenizer = components["tokenizer"]
     messages = [
         {
             "role": "system",
         }
     ]
+    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     # 4. Tạo câu trả lời từ LLM
     print("--- Bắt đầu tạo câu trả lời từ LLM ---")
     inputs = tokenizer([prompt], return_tensors="pt").to(llm_model.device)
     generation_config = dict(
     response_text = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     print("--- Tạo câu trả lời hoàn tất ---")
+    return response_text