Spaces:

entidi2608
/

juribot-backend

Runtime error

App Files Files Community

entidi2608 commited on Jun 25

Commit

eb4d8a0

1 Parent(s): fb63684

upgrade: qa chain

Browse files

Files changed (2) hide show

prompt_templete.py +393 -186
rag_components.py +66 -42

prompt_templete.py CHANGED Viewed

@@ -33,45 +33,7 @@
 # Prompt to condense question for legal chain
-CONDENSE_QUESTION_PROMPT = """"
-Bạn là một chuyên gia tối ưu hóa truy vấn tìm kiếm cho hệ thống pháp luật.
-Nhiệm vụ của bạn là kết hợp lịch sử trò chuyện (nếu có liên quan) và một câu hỏi mới để tạo ra một **câu hỏi độc lập, hoàn chỉnh duy nhất**. Câu hỏi này phải rõ ràng và sẵn sàng để được sử dụng để truy vấn một cơ sở dữ liệu vector.
-**QUY TẮC BẮT BUỘC:**
-- **GIỮ NGUYÊN:** Giữ lại tất cả các thuật ngữ pháp lý, số hiệu văn bản, điều khoản, ngày tháng, năm cụ thể.
-- **KHÔNG THÊM THẮT:** Nếu câu hỏi gốc mang tính tổng quát, câu hỏi viết lại phải giữ nguyên sự tổng quát đó, không được tự ý thêm các giả định không có trong câu hỏi.
-- **BỎ QUA NẾU KHÔNG LIÊN QUAN:** Nếu câu hỏi mới là một chủ đề hoàn toàn khác với lịch sử trò chuyện, hãy bỏ qua lịch sử và chỉ tập trung vào câu hỏi mới.
-- **HOÀN CHỈNH:** Câu hỏi cuối cùng phải là một câu hỏi hoàn chỉnh, có đầy đủ chủ ngữ, vị ngữ.
----
-**VÍ DỤ:**
-**Ví dụ 1: Câu hỏi nối tiếp thay đổi chủ thể**
-- Lịch sử hội thoại: `[("Hỏi: Mức phạt khi vượt đèn đỏ với xe máy là bao nhiêu?", "Trả lời: ...")]`
-- Câu hỏi mới của người dùng: `còn ô tô thì sao`
-- Câu hỏi độc lập: `Mức xử phạt hành chính đối với người điều khiển xe ô tô có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?`
-**Ví dụ 2: Câu hỏi mới không liên quan đến lịch sử**
-- Lịch sử hội thoại: `[("Hỏi: Thủ tục ly hôn đơn phương gồm những gì?", "Trả lời: ...")]`
-- Câu hỏi mới của người dùng: `quy định về hợp đồng lao động`
-- Câu hỏi độc lập: `Quy định của pháp luật về hợp đồng lao động là gì?`
-**Ví dụ 3: Câu hỏi mới đã đủ rõ ràng**
-- Lịch sử hội thoại: `(trống)`
-- Câu hỏi mới của người dùng: `Người lao động bị nợ lương 2 tháng thì phải làm gì?`
-- Câu hỏi độc lập: `Người lao động bị nợ lương 2 tháng thì phải làm gì?`
----
-**BÂY GIỜ, HÃY THỰC HIỆN NHIỆM VỤ:**
-**Lịch sử hội thoại:**
-{chat_history}
-**Câu hỏi mới của người dùng:**
-{input}
-**Câu hỏi độc lập:**
-"""
 # CONDENSE_QUESTION_PROMPT = """
 # Dựa trên lịch sử hội thoại sau và một câu hỏi mới của người dùng, hãy viết lại câu hỏi mới thành một câu hỏi **độc lập, đầy đủ ý nghĩa và ngắn gọn nhất có thể**.
@@ -190,43 +152,6 @@ Nhiệm vụ của bạn là trả lời câu hỏi của người dùng dựa H
 # Prompt for generic chain
-GENERAL_PROMPT = """
-Bạn là JuriBot, một trợ lý AI thân thiện và chuyên nghiệp, chuyên sâu về pháp luật Việt Nam.
-Nhiệm vụ của bạn là trả lời một cách lịch sự dựa trên câu hỏi đã được viết lại và phân loại của người dùng.
-**QUY TẮC PHẢN HỒI (DỰA TRÊN `classification`):**
--   Nếu `classification` là **`chit_chat`**:
-    -   Hãy phản hồi một cách tự nhiên và thân thiện.
-    -   Nếu là lời chào, hãy chào lại.
-    -   Nếu là lời cảm ơn, hãy đáp lại ("Rất vui được giúp bạn!").
-    -   Nếu là nhận xét hoặc hỏi về bản thân ("bạn là ai?"), hãy giới thiệu ngắn gọn vai trò của mình là một trợ lý pháp lý AI, nhấn mạnh chỉ cung cấp thông tin tham khảo và không thay thế luật sư.
--   Nếu `classification` là **`out_of_scope_legal`**:
-    -   Hãy lịch sự trả lời rằng chuyên môn của bạn chỉ giới hạn trong pháp luật Việt Nam và không thể cung cấp thông tin về luật của quốc gia khác.
--   Nếu `classification` là **`general_knowledge`**:
-    -   Hãy lịch sự giải thích rằng bạn là một trợ lý chuyên về pháp lý và không được đào tạo để trả lời các câu hỏi kiến thức chung.
--   Nếu `classification` là **`ambiguous_legal_topic`** (dành cho phiên bản nâng cao của prompt tiền xử lý):
-    -   Hãy yêu cầu người dùng làm rõ câu hỏi, có thể gợi ý một vài ví dụ để giúp họ.
-**HƯỚNG DẪN TÔNG GIỌNG:**
--   Luôn giữ thái độ chuyên nghiệp, hữu ích và khiêm tốn.
--   Kết thúc câu trả lời bằng một câu hỏi mở để khuyến khích người dùng tiếp tục hỏi về pháp luật Việt Nam (ví dụ: "Bạn có câu hỏi nào khác liên quan đến pháp luật Việt Nam không ạ?").
----
-**DỮ LIỆU ĐẦU VÀO:**
-**Phân loại:**
-{classification}
-**Câu hỏi c��a người dùng (đã được viết lại):**
-{rewritten_question}
-**Câu trả lời của bạn:**
-"""
 # GENERAL_PROMPT = """
 # Bạn là JuriBot, một trợ lý AI chuyên sâu về pháp luật Việt Nam.
@@ -252,94 +177,6 @@ Nhiệm vụ của bạn là trả lời một cách lịch sự dựa trên câ
 # prompt_templete.py
-UNIFIED_PREPROCESSING_PROMPT=""""
-Bạn là một AI điều phối viên siêu thông minh, chuyên phân tích và tối ưu hóa các câu hỏi của người dùng cho một hệ thống chatbot **CHUYÊN VỀ PHÁP LUẬT VIỆT NAM**.
-Nhiệm vụ của bạn là nhận câu hỏi của người dùng và lịch sử trò chuyện, sau đó viết lại câu hỏi cho rõ ràng và phân loại nó một cách chính xác.
-**QUY TRÌNH BẮT BUỘC:**
-**Bước 1: CHUẨN HÓA CƠ BẢN**
--   **Thêm dấu tiếng Việt đầy đủ và chính xác** nếu câu hỏi bị thiếu dấu.
--   Sửa các lỗi chính tả và ngữ pháp thông thường.
-**Bước 2: VIẾT LẠI & HOÀN CHỈNH**
--   Dựa vào kết quả của Bước 1 và lịch sử trò chuyện, hãy giải quyết các đại từ và các câu hỏi nối tiếp.
--   Nếu đầu vào là một câu hỏi pháp lý, hãy thay thế thuật ngữ thông tục bằng thuật ngữ pháp lý chính thức và tạo ra một **câu hỏi tìm kiếm độc lập, hoàn chỉnh**.
--   Nếu đầu vào không phải là câu hỏi (ví dụ: chào hỏi, cảm ơn, nhận xét), chỉ cần chuẩn hóa nó thành một câu hoàn chỉnh và lịch sự.
-**Bước 3: PHÂN LOẠI**
--   Dựa trên nội dung đã được hoàn chỉnh ở Bước 2, phân loại nó vào MỘT trong các loại sau:
-    -   `legal_rag`: Nếu câu hỏi liên quan đến tra cứu quy định pháp lý của **Việt Nam**.
-    -   `out_of_scope_legal`: Nếu câu hỏi liên quan đến pháp luật của **quốc gia khác** hoặc các vấn đề pháp lý không thuộc phạm vi hệ thống.
-    -   `chit_chat`: Đối với chào hỏi, cảm ơn, nhận xét, hỏi đáp thông thường không phải là câu hỏi (ví dụ: "bạn là ai?", "bạn làm được gì?").
-    -   `general_knowledge`: Đối với các câu hỏi về kiến thức chung, không liên quan đến pháp luật (ví dụ: diện tích một tỉnh, thủ đô một nước).
-**Lịch sử trò chuyện (nếu có):**
-{chat_history}
-**Câu hỏi mới của người dùng:**
-{input}
-**OUTPUT (Chỉ trả về một đối tượng JSON duy nhất):**
-{{
-  "classification": "...",
-  "rewritten_question": "..."
-}}
----
-**VÍ DỤ CHI TIẾT:**
-**Ví dụ 1 (Pháp lý trong phạm vi):**
--   Câu hỏi mới: "xe may vuot den do bi phat bao nhieu tien"
--   Output:
-    {{
-      "classification": "legal_rag",
-      "rewritten_question": "Mức xử phạt hành chính đối với người điều khiển xe mô tô, xe gắn máy có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
-    }}
-**Ví dụ 2 (Pháp lý ngoài phạm vi):**
--   Câu hỏi mới: "điều kiện kết hôn tại Mỹ"
--   Output:
-    {{
-      "classification": "out_of_scope_legal",
-      "rewritten_question": "Điều kiện kết hôn tại Mỹ được quy định như thế nào?"
-    }}
-**Ví dụ 3 (Kiến thức chung):**
--   Câu hỏi mới: "tuyen quang co dien tich bao nhieu"
--   Output:
-    {{
-      "classification": "general_knowledge",
-      "rewritten_question": "Tỉnh Tuyên Quang có diện tích bao nhiêu?"
-    }}
-**Ví dụ 4 (Trò chuyện/Nhận xét):**
--   Câu hỏi mới: "bro trả lời oke phết"
--   Output:
-    {{
-      "classification": "chit_chat",
-      "rewritten_question": "Cảm ơn bạn đã nhận xét."
-    }}
-**Ví dụ 5 (Chào hỏi):**
--   Câu hỏi mới: "chao ban"
--   Output:
-    {{
-      "classification": "chit_chat",
-      "rewritten_question": "Chào bạn."
-    }}
-**Ví dụ 6 (Lịch sử & Sai chính tả):**
--   Lịch sử: [("Hỏi: Điều kiện kết hôn là gì?", "Trả lời: ...")]
--   Câu hỏi mới: "the thu tuc ly hon don phuong thì sao"
--   Output:
-    {{
-      "classification": "legal_rag",
-      "rewritten_question": "Thủ tục ly hôn theo yêu cầu của một bên (ly hôn đơn phương) được quy định như thế nào?"
-    }}
----
-"""
 # UNIFIED_PREPROCESSING_PROMPT = """
 # Bạn là một AI điều phối viên siêu thông minh, chuyên phân tích và tối ưu hóa các câu hỏi của người dùng cho một hệ thống chatbot **CHUYÊN VỀ PHÁP LUẬT VIỆT NAM**.
@@ -413,43 +250,413 @@ Nhiệm vụ của bạn là nhận câu hỏi của người dùng và lịch s
-KEYWORD_EXTRACTION_PROMPT = """
-Bạn là một chuyên gia phân tích truy vấn pháp lý. Nhiệm vụ của bạn là nhận một câu hỏi và rút ra một danh sách các **cụm từ khóa cốt lõi, ngắn gọn và có khả năng xuất hiện cao nhất** trong nội dung một điều luật cụ thể.
-**HƯỚNG DẪN:**
--   Tập trung vào **hành vi vi phạm** và **đối tượng**.
--   Loại bỏ các từ hỏi như "bao nhiêu", "là gì", "thế nào".
--   Sử dụng các thuật ngữ pháp lý nếu có thể.
--   Chỉ trả về các cụm từ khóa, mỗi cụm từ trên một dòng, không có đánh số.
-**Ví dụ 1:**
-Câu hỏi: Mức xử phạt hành chính khi xe máy vượt đèn đỏ theo quy định hiện hành?
-OUTPUT:
 xử phạt xe máy
 không chấp hành hiệu lệnh đèn tín hiệu giao thông
 tước quyền sử dụng giấy phép lái xe
-**Ví dụ 2:**
-Câu hỏi: Thủ tục ly hôn đơn phương cần những giấy tờ gì?
-OUTPUT:
 thủ tục ly hôn đơn phương
 hồ sơ ly hôn
 giấy tờ cần thiết
 tòa án nhân dân
-**Ví dụ 3:**
-Câu hỏi: Người lao động bị nợ lương 2 tháng phải làm sao?
-OUTPUT:
-người lao động bị nợ lương
-người sử dụng lao động không trả lương
-khiếu nại tiền lương
-khởi kiện đòi lương
 ---
-**Câu hỏi gốc:**
 {question}
 **OUTPUT:**
 """

 # Prompt to condense question for legal chain
 # CONDENSE_QUESTION_PROMPT = """
 # Dựa trên lịch sử hội thoại sau và một câu hỏi mới của người dùng, hãy viết lại câu hỏi mới thành một câu hỏi **độc lập, đầy đủ ý nghĩa và ngắn gọn nhất có thể**.
 # Prompt for generic chain
 # GENERAL_PROMPT = """
 # Bạn là JuriBot, một trợ lý AI chuyên sâu về pháp luật Việt Nam.
 # prompt_templete.py
 # UNIFIED_PREPROCESSING_PROMPT = """
 # Bạn là một AI điều phối viên siêu thông minh, chuyên phân tích và tối ưu hóa các câu hỏi của người dùng cho một hệ thống chatbot **CHUYÊN VỀ PHÁP LUẬT VIỆT NAM**.
+#-----------------------------New Prompts Vietnamese--------------------------------
+# KEYWORD_EXTRACTION_PROMPT = """
+# Bạn là một chuyên gia phân tích truy vấn pháp lý. Nhiệm vụ của bạn là nhận một câu h��i và rút ra một danh sách các **cụm từ khóa cốt lõi, ngắn gọn và có khả năng xuất hiện cao nhất** trong nội dung một điều luật cụ thể.
+# **HƯỚNG DẪN:**
+# -   Tập trung vào **hành vi vi phạm** và **đối tượng**.
+# -   Loại bỏ các từ hỏi như "bao nhiêu", "là gì", "thế nào".
+# -   Sử dụng các thuật ngữ pháp lý nếu có thể.
+# -   Chỉ trả về các cụm từ khóa, mỗi cụm từ trên một dòng, không có đánh số.
+# **Ví dụ 1:**
+# Câu hỏi: Mức xử phạt hành chính khi xe máy vượt đèn đỏ theo quy định hiện hành?
+# OUTPUT:
+# xử phạt xe máy
+# không chấp hành hiệu lệnh đèn tín hiệu giao thông
+# tước quyền sử dụng giấy phép lái xe
+# **Ví dụ 2:**
+# Câu hỏi: Thủ tục ly hôn đơn phương cần những giấy tờ gì?
+# OUTPUT:
+# thủ tục ly hôn đơn phương
+# hồ sơ ly hôn
+# giấy tờ cần thiết
+# tòa án nhân dân
+# **Ví dụ 3:**
+# Câu hỏi: Người lao động bị nợ lương 2 tháng phải làm sao?
+# OUTPUT:
+# người lao động bị nợ lương
+# người sử dụng lao động không trả lương
+# khiếu nại tiền lương
+# khởi kiện đòi lương
+# ---
+# **Câu hỏi gốc:**
+# {question}
+# **OUTPUT:**
+# """
+# CONDENSE_QUESTION_PROMPT = """"
+# Bạn là một chuyên gia tối ưu hóa truy vấn tìm kiếm cho hệ thống pháp luật.
+# Nhiệm vụ của bạn là kết hợp lịch sử trò chuyện (nếu có liên quan) và một câu hỏi mới để tạo ra một **câu hỏi độc lập, hoàn chỉnh duy nhất**. Câu hỏi này phải rõ ràng và sẵn sàng để được sử dụng để truy vấn một cơ sở dữ liệu vector.
+# **QUY TẮC BẮT BUỘC:**
+# - **GIỮ NGUYÊN:** Giữ lại tất cả các thuật ngữ pháp lý, số hiệu văn bản, điều khoản, ngày tháng, năm cụ thể.
+# - **KHÔNG THÊM THẮT:** Nếu câu hỏi gốc mang tính tổng quát, câu hỏi viết lại phải giữ nguyên sự tổng quát đó, không được tự ý thêm các giả định không có trong câu hỏi.
+# - **BỎ QUA NẾU KHÔNG LIÊN QUAN:** Nếu câu hỏi mới là một chủ đề hoàn toàn khác với lịch sử trò chuyện, hãy bỏ qua lịch sử và chỉ tập trung vào câu hỏi mới.
+# - **HOÀN CHỈNH:** Câu hỏi cuối cùng phải là một câu hỏi hoàn chỉnh, có đầy đủ chủ ngữ, vị ngữ.
+# ---
+# **VÍ DỤ:**
+# **Ví dụ 1: Câu hỏi nối tiếp thay đổi chủ thể**
+# - Lịch sử hội thoại: `[("Hỏi: Mức phạt khi vượt đèn đỏ với xe máy là bao nhiêu?", "Trả lời: ...")]`
+# - Câu hỏi mới của người dùng: `còn ô tô thì sao`
+# - Câu hỏi độc lập: `Mức xử phạt hành chính đối với người điều khiển xe ô tô có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?`
+# **Ví dụ 2: Câu hỏi mới không liên quan đến lịch sử**
+# - Lịch sử hội thoại: `[("Hỏi: Thủ tục ly hôn đơn phương gồm những gì?", "Trả lời: ...")]`
+# - Câu hỏi mới của người dùng: `quy định về hợp đồng lao động`
+# - Câu hỏi độc lập: `Quy định của pháp luật về hợp đồng lao động là gì?`
+# **Ví dụ 3: Câu hỏi mới đã đủ rõ ràng**
+# - Lịch sử hội thoại: `(trống)`
+# - Câu hỏi mới của người dùng: `Người lao động bị nợ lương 2 tháng thì phải làm gì?`
+# - Câu hỏi độc lập: `Người lao động bị nợ lương 2 tháng thì phải làm gì?`
+# ---
+# **BÂY GIỜ, HÃY THỰC HIỆN NHIỆM VỤ:**
+# **Lịch sử hội thoại:**
+# {chat_history}
+# **Câu hỏi mới của người dùng:**
+# {input}
+# **Câu hỏi độc lập:**
+# """
+# UNIFIED_PREPROCESSING_PROMPT=""""
+# Bạn là một AI điều phối viên siêu thông minh, chuyên phân tích và tối ưu hóa các câu hỏi của người dùng cho một hệ thống chatbot **CHUYÊN VỀ PHÁP LUẬT VIỆT NAM**.
+# Nhiệm vụ của bạn là nhận câu hỏi của người dùng và lịch sử trò chuyện, sau đó viết lại câu hỏi cho rõ ràng và phân loại nó một cách chính xác.
+# **QUY TRÌNH BẮT BUỘC:**
+# **Bước 1: CHUẨN HÓA CƠ BẢN**
+# -   **Thêm dấu tiếng Việt đầy đủ và chính xác** nếu câu hỏi bị thiếu dấu.
+# -   Sửa các lỗi chính tả và ngữ pháp thông thường.
+# **Bước 2: VIẾT LẠI & HOÀN CHỈNH**
+# -   Dựa vào kết quả của Bước 1 và lịch sử trò chuyện, hãy giải quyết các đại từ và các câu hỏi nối tiếp.
+# -   Nếu đầu vào là một câu hỏi pháp lý, hãy thay thế thuật ngữ thông tục bằng thuật ngữ pháp lý chính thức và tạo ra một **câu hỏi tìm kiếm độc lập, hoàn chỉnh**.
+# -   Nếu đầu vào không phải là câu hỏi (ví dụ: chào hỏi, cảm ơn, nhận xét), chỉ cần chuẩn hóa nó thành một câu hoàn chỉnh và lịch sự.
+# **Bước 3: PHÂN LOẠI**
+# -   Dựa trên nội dung đã được hoàn chỉnh ở Bước 2, phân loại nó vào MỘT trong các loại sau:
+#     -   `legal_rag`: Nếu câu hỏi liên quan đến tra cứu quy định pháp lý của **Việt Nam**.
+#     -   `out_of_scope_legal`: Nếu câu hỏi liên quan đến pháp luật của **quốc gia khác** hoặc các vấn đề pháp lý không thuộc phạm vi hệ thống.
+#     -   `chit_chat`: Đối với chào hỏi, cảm ơn, nhận xét, hỏi đáp thông thường không phải là câu hỏi (ví dụ: "bạn là ai?", "bạn làm được gì?").
+#     -   `general_knowledge`: Đối với các câu hỏi về kiến thức chung, không liên quan đến pháp luật (ví dụ: diện tích một tỉnh, thủ đô một nước).
+# **Lịch sử trò chuyện (nếu có):**
+# {chat_history}
+# **Câu hỏi mới của người dùng:**
+# {input}
+# **OUTPUT:**
+# **QUAN TRỌNG: Chỉ được trả về một đối tượng JSON duy nhất, không có bất kỳ văn bản, giải thích, hay lời dẫn nào trước hoặc sau nó. Toàn bộ phản hồi của bạn phải là một JSON hợp lệ.**
+# {{
+#   "classification": "...",
+#   "rewritten_question": "..."
+# }}
+# ---
+# **VÍ DỤ CHI TIẾT:**
+# **Ví dụ 1 (Pháp lý trong phạm vi):**
+# -   Câu hỏi mới: "xe may vuot den do bi phat bao nhieu tien"
+# -   Output:
+#     {{
+#       "classification": "legal_rag",
+#       "rewritten_question": "Mức xử phạt hành chính đối với người điều khiển xe mô tô, xe gắn máy có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
+#     }}
+# **Ví dụ 2 (Pháp lý ngoài phạm vi):**
+# -   Câu hỏi mới: "điều kiện kết hôn tại Mỹ"
+# -   Output:
+#     {{
+#       "classification": "out_of_scope_legal",
+#       "rewritten_question": "Điều kiện kết hôn tại Mỹ được quy định như thế nào?"
+#     }}
+# **Ví dụ 3 (Kiến thức chung):**
+# -   Câu hỏi mới: "tuyen quang co dien tich bao nhieu"
+# -   Output:
+#     {{
+#       "classification": "general_knowledge",
+#       "rewritten_question": "Tỉnh Tuyên Quang có diện tích bao nhiêu?"
+#     }}
+# **Ví dụ 4 (Trò chuyện/Nhận xét):**
+# -   Câu hỏi mới: "bro trả lời oke phết"
+# -   Output:
+#     {{
+#       "classification": "chit_chat",
+#       "rewritten_question": "Cảm ơn bạn đã nhận xét."
+#     }}
+# **Ví dụ 5 (Chào hỏi):**
+# -   Câu hỏi mới: "chao ban"
+# -   Output:
+#     {{
+#       "classification": "chit_chat",
+#       "rewritten_question": "Chào bạn."
+#     }}
+# **Ví dụ 6 (Lịch sử & Sai chính tả):**
+# -   Lịch sử: [("Hỏi: Điều kiện kết hôn là gì?", "Trả lời: ...")]
+# -   Câu hỏi mới: "the thu tuc ly hon don phuong thì sao"
+# -   Output:
+#     {{
+#       "classification": "legal_rag",
+#       "rewritten_question": "Thủ tục ly hôn theo yêu cầu của một bên (ly hôn đơn phương) được quy định như thế nào?"
+#     }}
+# ---
+# """
+# GENERAL_PROMPT = """
+# Bạn là JuriBot, một trợ lý AI thân thiện và chuyên nghiệp, chuyên sâu về pháp luật Việt Nam.
+# Nhiệm vụ của bạn là trả lời một cách lịch sự dựa trên câu hỏi đã được viết lại và phân loại của người dùng.
+# **QUY TẮC PHẢN HỒI (DỰA TRÊN `classification`):**
+# -   Nếu `classification` là **`chit_chat`**:
+#     -   Hãy phản hồi một cách tự nhiên và thân thiện.
+#     -   Nếu là lời chào, hãy chào lại.
+#     -   Nếu là lời cảm ơn, hãy đáp lại ("Rất vui được giúp bạn!").
+#     -   Nếu là nhận xét hoặc hỏi về bản thân ("bạn là ai?"), hãy giới thiệu ngắn gọn vai trò của mình là một trợ lý pháp lý AI, nhấn mạnh chỉ cung cấp thông tin tham khảo và không thay thế luật sư.
+# -   Nếu `classification` là **`out_of_scope_legal`**:
+#     -   Hãy lịch sự trả lời rằng chuyên môn của bạn chỉ giới hạn trong pháp luật Việt Nam và không thể cung cấp thông tin về luật của quốc gia khác.
+# -   Nếu `classification` là **`general_knowledge`**:
+#     -   Hãy lịch sự giải thích rằng bạn là một trợ lý chuyên về pháp lý và không được đào tạo để trả lời các câu hỏi kiến thức chung.
+# -   Nếu `classification` là **`ambiguous_legal_topic`** (dành cho phiên bản nâng cao của prompt tiền xử lý):
+#     -   Hãy yêu cầu người dùng làm rõ câu hỏi, có thể gợi ý một vài ví dụ để giúp họ.
+# **HƯỚNG DẪN TÔNG GIỌNG:**
+# -   Luôn giữ thái độ chuyên nghiệp, hữu ích và khiêm tốn.
+# -   Kết thúc câu trả lời bằng một câu hỏi mở để khuyến khích người dùng tiếp tục hỏi về pháp luật Việt Nam (ví dụ: "Bạn có câu hỏi nào khác liên quan đến pháp luật Việt Nam không ạ?").
+# ---
+# **DỮ LIỆU ĐẦU VÀO:**
+# **Phân loại:**
+# {classification}
+# **Câu hỏi của người dùng (đã được viết lại):**
+# {rewritten_question}
+# **Câu trả lời của bạn:**
+# """
+#------------------------------New Prompts Vietnamese--------------------------------
+#-----------------------------New Prompts English--------------------------------
+# ==============================================================================
+# PROMPT 1: UNIFIED_PREPROCESSING_PROMPT
+# Nhiệm vụ: "Bộ não" chính, phân tích và định tuyến câu hỏi.
+# Tối ưu: Chỉ dẫn tiếng Anh ngắn gọn, giữ ví dụ tiếng Việt, quy tắc JSON nghiêm ngặt.
+# ==============================================================================
+UNIFIED_PREPROCESSING_PROMPT = """
+You are a lean, efficient query pre-processing engine for a Vietnamese Law chatbot.
+Your task is to analyze the user's input and chat history, then output a single, raw JSON object.
+**INSTRUCTIONS:**
+1.  **Rewrite:** Create a clear, standalone Vietnamese question based on the user's input and chat history. Use official legal terms for legal queries.
+2.  **Classify:** Categorize the rewritten question into ONE of these types:
+    - `legal_rag`: A specific question about Vietnamese law.
+    - `out_of_scope_legal`: A question about non-Vietnamese law.
+    - `chit_chat`: Greetings, thanks, feedback, or questions about the bot.
+    - `general_knowledge`: A non-legal, general knowledge question.
+    - `ambiguous_legal_topic`: A legal topic mentioned without a specific question.
+---
+**EXAMPLES:**
+# Example 1: In-scope Legal
+- User Input: "xe may vuot den do bi phat bao nhieu tien"
+- Output:
+    {
+      "classification": "legal_rag",
+      "rewritten_question": "Mức xử phạt hành chính đối với người điều khiển xe mô tô, xe gắn máy có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
+    }
+# Example 2: Out-of-scope Legal
+- User Input: "điều kiện kết hôn tại Mỹ"
+- Output:
+    {
+      "classification": "out_of_scope_legal",
+      "rewritten_question": "Điều kiện kết hôn tại Mỹ được quy định như thế nào?"
+    }
+# Example 3: Chit-chat
+- User Input: "bro trả lời oke phết"
+- Output:
+    {
+      "classification": "chit_chat",
+      "rewritten_question": "Cảm ơn bạn đã nhận xét."
+    }
+# Example 4: History-aware
+- History: [("Hỏi: Điều kiện kết hôn là gì?", "Trả lời: ...")]
+- User Input: "the thu tuc ly hon don phuong thì sao"
+- Output:
+    {
+      "classification": "legal_rag",
+      "rewritten_question": "Thủ tục ly hôn theo yêu cầu của một bên (ly hôn đơn phương) được quy định như thế nào?"
+    }
+---
+**Chat History:**
+{chat_history}
+**User Input:**
+{input}
+**OUTPUT:**
+**CRITICAL: Your entire response MUST be a single, raw JSON object. Do not include any text, explanations, or markdown formatting before or after the JSON.**
+"""
+# ==============================================================================
+# PROMPT 2: QA_PROMPT_TEMPLATE
+# Nhiệm vụ: Prompt RAG chính, tạo câu trả lời từ context.
+# Tối ưu: Thêm quy tắc trả lời đa ngôn ngữ, giữ cấu trúc Chain-of-Thought.
+# ==============================================================================
+QA_PROMPT_TEMPLATE = """
+You are JuriBot, a meticulous AI legal assistant.
+**CRITICAL RULE: Always respond in the same language as the user's QUESTION (`{input}`).**
+Your task is to answer the QUESTION based **strictly** on the provided CONTEXT.
+**RULES:**
+1.  **NO OUTSIDE KNOWLEDGE:** Your answer must be 100% derived from the CONTEXT.
+2.  **BE HONEST:** If the CONTEXT is empty or irrelevant, state: "Dựa trên các tài liệu được cung cấp, tôi không tìm thấy thông tin để trả lời câu hỏi này."
+3.  **PRIORITIZE NEWEST LAW:** If laws conflict, use the one with the most recent `nam_ban_hanh` (year) from metadata.
+4.  **STATE FACTS, NOT ADVICE:** Present information only. Do not give advice or opinions.
+---
+**CONTEXT:**
+*(Note: Context is a list of documents with `page_content` and `metadata`)*
+{context}
+---
+**QUESTION:**
+{input}
+---
+**ANSWER GENERATION PROCESS (Internal thought process):**
+**1. Analysis:**
+   - **Core Request:** [Summarize what the user wants]
+   - **Main Subject & Action:** [Identify key entities and events]
+**2. Context Evaluation:**
+   - [List relevant documents from CONTEXT and why. If none, state that.]
+**3. Response Plan:**
+   - [Outline the answer structure based on selected documents.]
+**4. Final Answer (Use this exact format):**
+**[BEGIN FINAL ANSWER]**
+### [A clear, concise title for the answer in the user's language]
+[Present the answer here. Use bullet points for key information.]
+-   **Quy định (Regulation):** [Content of the regulation]
+-   **Mức phạt (Penalty):** [Details on the penalty, if any]
+-   **Biện pháp bổ sung (Additional Measures):** [Details on supplementary penalties]
+### Nguồn tham khảo (Source)
+-   **Văn bản (Document):** [`ten_van_ban`, `so_hieu` from metadata]
+    -   **Điều khoản (Clause):** [`dieu_code`, `khoan_code` from metadata, if available]
+*(Repeat Source block for each document used)*
+**[END FINAL ANSWER]**
+"""
+# ==============================================================================
+# PROMPT 3: GENERAL_RESPONSE_PROMPT
+# Nhiệm vụ: Tạo các câu trả lời không cần tra cứu (Non-RAG).
+# Tối ưu: Thêm quy tắc trả lời đa ngôn ngữ, nhận cả `input` gốc.
+# ==============================================================================
+GENERAL_RESPONSE_PROMPT = """
+You are JuriBot, a friendly and professional AI assistant for Vietnamese law.
+**CRITICAL RULE: Always respond in the same language as the user's original question (`{input}`).**
+Based on the provided classification, formulate a polite response.
+- If `classification` is **`chit_chat`**: Respond naturally. If it's about you, introduce yourself as a Vietnamese legal AI assistant.
+- If `classification` is **`out_of_scope_legal`**: Politely state that your expertise is limited to Vietnamese law.
+- If `classification` is **`general_knowledge`**: Politely explain you are a specialized legal AI and cannot answer general knowledge questions.
+- If `classification` is **`ambiguous_legal_topic`**: Ask for clarification and suggest example questions.
+---
+**INPUT DATA:**
+- **User's Original Question:** {input}
+- **Classification:** {classification}
+- **Rewritten Question:** {rewritten_question}
+**YOUR RESPONSE (in user's language):**
+"""
+# ==============================================================================
+# Các prompt phụ (KEYWORD và CONDENSE) - Tùy chọn nếu bạn có dùng trong chain
+# Tối ưu: Đã được dịch và rút gọn.
+# ==============================================================================
+KEYWORD_EXTRACTION_PROMPT = """
+You are a legal query analyst. Extract core search keywords from the Vietnamese question.
+Focus on the **violating act**, **subject**, and **consequences**. Remove question words.
+Return only keywords, one per line.
+**Question:** Mức xử phạt hành chính khi xe máy vượt đèn đỏ theo quy định hiện hành?
+**OUTPUT:**
 xử phạt xe máy
 không chấp hành hiệu lệnh đèn tín hiệu giao thông
 tước quyền sử dụng giấy phép lái xe
+**Question:** Thủ tục ly hôn đơn phương cần những giấy tờ gì?
+**OUTPUT:**
 thủ tục ly hôn đơn phương
 hồ sơ ly hôn
 giấy tờ cần thiết
 tòa án nhân dân
 ---
+**Question:**
 {question}
 **OUTPUT:**
+"""
+CONDENSE_QUESTION_PROMPT = """
+Rephrase the follow-up question into a single, standalone Vietnamese question, using the chat history for context. If the new question is unrelated, ignore the history.
+**History:** `[("Hỏi: Mức phạt khi vượt đèn đỏ với xe máy là bao nhiêu?", "Trả lời: ...")]`
+**Follow-up:** `còn ô tô thì sao`
+**Standalone Question:** `Mức xử phạt hành chính đối với người điều khiển xe ô tô có hành vi không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?`
+**History:** `[("Hỏi: Thủ tục ly hôn đơn phương gồm những gì?", "Trả lời: ...")]`
+**Follow-up:** `quy định về hợp đồng lao động`
+**Standalone Question:** `Quy định của pháp luật về hợp đồng lao động là gì?`
+---
+**History:**
+{chat_history}
+**Follow-up Question:**
+{input}
+**Standalone Question:**
 """

rag_components.py CHANGED Viewed

@@ -14,6 +14,8 @@ import weaviate
 import weaviate.classes.config as wvc_config
 from weaviate.exceptions import WeaviateQueryException
 import time
 from operator import itemgetter
@@ -425,22 +427,36 @@ def get_google_llm(google_api_key):
 #new update
 def _extract_final_answer(rag_output_with_thinking: str) -> str:
     """
     Hàm trợ giúp để trích xuất câu trả lời cuối cùng từ output của QA_PROMPT_TEMPLATE.
-    Nó tìm các thẻ đánh dấu đặc biệt và chỉ trả về nội dung ở giữa.
     """
-    start_tag = "[BẮT ĐẦU CÂU TRẢ LỜI CUỐI CÙNG]"
-    end_tag = "[KẾT THÚC CÂU TRẢ LỜI CUỐI CÙNG]"
     start_index = rag_output_with_thinking.find(start_tag)
     end_index = rag_output_with_thinking.find(end_tag)
     if start_index != -1 and end_index != -1:
-        # Lấy nội dung giữa 2 thẻ
         return rag_output_with_thinking[start_index + len(start_tag):end_index].strip()
-    # Nếu không tìm thấy thẻ, trả về toàn bộ output để gỡ lỗi
     logger.warning("Không tìm thấy thẻ đánh dấu trả lời trong output của RAG. Trả về toàn bộ output.")
     return rag_output_with_thinking
@@ -451,63 +467,53 @@ def create_qa_chain(
     process_input_llm: any = None
 ):
     """
-    PHIÊN BẢN CẢI TIẾN: Tạo ra một RAG chain hoàn chỉnh với kiến trúc dựa trên Router thông minh,
-    sử dụng các prompt đã được tối ưu hóa.
     """
     if not all([llm, retriever]):
         logger.error("🔸 Thiếu LLM hoặc Retriever chính để tạo QA Chain.")
         return None
     try:
-        logger.info("🔸 Bắt đầu tạo QA Chain với Router thông minh...")
         preprocessing_llm = process_input_llm or llm
-        # ----- 1. KHAI BÁO CÁC PROMPT TEMPLATE MỚI -----
-        # Prompt tiền xử lý hợp nhất (bộ não của hệ thống)
-        # Dòng này đã được sửa để khớp với tên prompt của bạn
         unified_preprocessing_prompt = ChatPromptTemplate.from_template(
             prompt_templete.UNIFIED_PREPROCESSING_PROMPT
         )
-        # Prompt tạo câu trả lời RAG (với Chain-of-Thought)
         qa_rag_prompt = ChatPromptTemplate.from_template(
             prompt_templete.QA_PROMPT_TEMPLATE
         )
-        # Prompt tạo câu trả lời chung (cho các trường hợp không phải pháp lý)
         general_response_prompt = ChatPromptTemplate.from_template(
-            prompt_templete.GENERAL_PROMPT
         )
-        # ----- 2. ĐỊNH NGHĨA CÁC NHÁNH XỬ LÝ (CHAINS) -----
-        # --- Nhánh A: LEGAL QUERY (Nhánh RAG chính) ---
         legal_rag_chain = (
             RunnablePassthrough.assign(
                 context=itemgetter("rewritten_question") | retriever
             ).assign(
-                # Chạy chuỗi con để chỉ lấy câu trả lời
                 answer=(
-                    RunnablePassthrough.assign(input=itemgetter("rewritten_question"))
-                    | qa_rag_prompt
                     | llm
                     | StrOutputParser()
                     | RunnableLambda(_extract_final_answer)
                 )
             )
-            # Chỉ chọn lọc 'answer' và 'context' cho output cuối cùng của nhánh này
             | (lambda x: {"answer": x["answer"], "context": x["context"]})
-        ).with_config({"run_name": "LegalRAGChainWithContext"})
-        # --- Nhánh B: GENERAL RESPONSE (Nhánh phản hồi chung cho các loại còn lại) ---
         general_response_chain = (
             general_response_prompt
             | llm
             | StrOutputParser()
-            # Bọc output lại thành dict để đồng bộ với nhánh legal
             | (lambda answer_str: {"answer": answer_str, "context": []})
         ).with_config({"run_name": "GeneralResponseChain"})
@@ -515,8 +521,6 @@ def create_qa_chain(
         def route(info: dict):
             classification = info.get("classification")
             logger.info(f"➡️  Định tuyến truy vấn với phân loại: '{classification}'")
-            # Sử dụng 'legal_rag' vì đó là tên phân loại trong prompt của bạn
             if classification == "legal_rag":
                 return legal_rag_chain
             else:
@@ -524,24 +528,44 @@ def create_qa_chain(
         # ----- 4. KẾT HỢP THÀNH FULL CHAIN -----
-        # Bước 1: Tiền xử lý để lấy ra dict {"classification": "...", "rewritten_question": "..."}
-        preprocessing_chain = unified_preprocessing_prompt | preprocessing_llm | JsonOutputParser()
-        def chain_with_context(info_dict: dict):
-            selected_chain = route(info_dict)
-            return selected_chain.invoke(info_dict)
-        # Giờ đây full_chain sẽ trả về một dict {"answer": ..., "context": ...}
-        # mà không cần bước lambda cuối cùng
-        full_chain = preprocessing_chain | RunnableLambda(chain_with_context)
-        logger.info("✅ Tạo thành công QA Chain phiên bản TỐI ƯU NHẤT.")
-        return full_chain
-        logger.info("✅ Tạo thành công QA Chain với Router thông minh.")
         return full_chain
     except Exception as e:

 import weaviate.classes.config as wvc_config
 from weaviate.exceptions import WeaviateQueryException
 import time
+import json
+import re
 from operator import itemgetter
 #new update
+def _extract_and_parse_json(text_with_json: str) -> dict:
+    """
+    Hàm trợ giúp để tìm và trích xuất khối JSON đầu tiên từ một chuỗi văn bản.
+    """
+    json_match = re.search(r'\{.*\}', text_with_json, re.DOTALL)
+    if json_match:
+        json_str = json_match.group(0)
+        try:
+            return json.loads(json_str)
+        except json.JSONDecodeError:
+            logger.error(f"Không thể phân tích chuỗi JSON được trích xuất: {json_str}")
+            raise
+    else:
+        logger.error(f"Không tìm thấy khối JSON nào trong output: {text_with_json}")
+        raise ValueError("Không tìm thấy đối tượng JSON trong output của LLM")
 def _extract_final_answer(rag_output_with_thinking: str) -> str:
     """
     Hàm trợ giúp để trích xuất câu trả lời cuối cùng từ output của QA_PROMPT_TEMPLATE.
     """
+    start_tag = "[BEGIN FINAL ANSWER]"
+    end_tag = "[END FINAL ANSWER]"
     start_index = rag_output_with_thinking.find(start_tag)
     end_index = rag_output_with_thinking.find(end_tag)
     if start_index != -1 and end_index != -1:
         return rag_output_with_thinking[start_index + len(start_tag):end_index].strip()
     logger.warning("Không tìm thấy thẻ đánh dấu trả lời trong output của RAG. Trả về toàn bộ output.")
     return rag_output_with_thinking
     process_input_llm: any = None
 ):
     """
+    PHIÊN BẢN CUỐI CÙNG: Tạo ra một RAG chain hoàn chỉnh, có khả năng xử lý đa ngôn ngữ
+    bằng cách bảo toàn dữ liệu đầu vào gốc.
     """
     if not all([llm, retriever]):
         logger.error("🔸 Thiếu LLM hoặc Retriever chính để tạo QA Chain.")
         return None
     try:
+        logger.info("🔸 Bắt đầu tạo QA Chain phiên bản Tối Ưu Nhất...")
         preprocessing_llm = process_input_llm or llm
+        # ----- 1. KHAI BÁO PROMPTS -----
         unified_preprocessing_prompt = ChatPromptTemplate.from_template(
             prompt_templete.UNIFIED_PREPROCESSING_PROMPT
         )
         qa_rag_prompt = ChatPromptTemplate.from_template(
             prompt_templete.QA_PROMPT_TEMPLATE
         )
         general_response_prompt = ChatPromptTemplate.from_template(
+            prompt_templete.GENERAL_RESPONSE_PROMPT
         )
+        # ----- 2. ĐỊNH NGHĨA CÁC NHÁNH XỬ LÝ -----
+        # --- Nhánh A: LEGAL RAG (Nhận dict đầy đủ) ---
         legal_rag_chain = (
             RunnablePassthrough.assign(
                 context=itemgetter("rewritten_question") | retriever
             ).assign(
+                # Lấy câu trả lời đã được dọn dẹp
                 answer=(
+                    qa_rag_prompt
                     | llm
                     | StrOutputParser()
                     | RunnableLambda(_extract_final_answer)
                 )
             )
+            # Chỉ trả về 2 key quan trọng nhất
             | (lambda x: {"answer": x["answer"], "context": x["context"]})
+        ).with_config({"run_name": "LegalRAGChain"})
+        # --- Nhánh B: GENERAL RESPONSE (Nhận dict đầy đủ) ---
         general_response_chain = (
             general_response_prompt
             | llm
             | StrOutputParser()
             | (lambda answer_str: {"answer": answer_str, "context": []})
         ).with_config({"run_name": "GeneralResponseChain"})
         def route(info: dict):
             classification = info.get("classification")
             logger.info(f"➡️  Định tuyến truy vấn với phân loại: '{classification}'")
             if classification == "legal_rag":
                 return legal_rag_chain
             else:
         # ----- 4. KẾT HỢP THÀNH FULL CHAIN -----
+        # <--- THAY ĐỔI QUAN TRỌNG BẮT ĐẦU TỪ ĐÂY --->
+        # 4.1. Chuỗi con để thực hiện tiền xử lý và trả về JSON
+        preprocessing_logic = (
+            unified_preprocessing_prompt
+            | preprocessing_llm
+            | StrOutputParser()
+            | RunnableLambda(_extract_and_parse_json)
+        )
+        # 4.2. Xây dựng chuỗi chính để BẢO TOÀN và HỢP NHẤT dữ liệu
+        full_chain = (
+            # Bắt đầu với một Passthrough để giữ lại dữ liệu gốc (input, chat_history)
+            RunnablePassthrough.assign(
+                # Chạy chuỗi tiền xử lý và gán kết quả của nó vào một key mới là `processed`
+                processed=preprocessing_logic
+            )
+            | RunnableLambda(
+                # Hàm này sẽ "làm phẳng" dict trên thành một dict duy nhất
+                # để các nhánh sau có thể truy cập tất cả các key
+                lambda x: {
+                    "input": x["input"],
+                    "chat_history": x.get("chat_history", []),
+                    "classification": x["processed"]["classification"],
+                    "rewritten_question": x["processed"]["rewritten_question"]
+                }
+            )
+            # 4.3. Chạy bộ định tuyến với dict đã được làm phẳng
+            | RunnableLambda(
+                # `info_dict` bây giờ chứa tất cả các key cần thiết
+                lambda info_dict: route(info_dict).invoke(info_dict)
+            )
+        )
+        # <--- THAY ĐỔI QUAN TRỌNG KẾT THÚC TẠI ĐÂY --->
+        logger.info("✅ Tạo thành công QA Chain phiên bản TỐI ƯU NHẤT.")
         return full_chain
     except Exception as e: