MBAL_chatbot

Sleeping

App Files Files Community

ngcanh commited on Jul 15

Commit

1bb6f56

verified ·

1 Parent(s): 7333f55

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -92

app.py CHANGED Viewed

@@ -26,6 +26,7 @@ from langchain_core.output_parsers import StrOutputParser # format LLM's output
 from langchain import hub
 from langchain_core.prompts import PromptTemplate
 import json
 # Save RAG chain builded from PDF
 if 'rag_chain' not in st.session_state:
@@ -45,7 +46,7 @@ if 'llm' not in st.session_state:
 @st.cache_resource # cache model embeddings, avoid model reloading each runtime
 def load_embeddings():
-    return HuggingFaceEmbeddings(model_name='nomic-embeded-text-v1.5')
 # set up config
@@ -90,27 +91,7 @@ def format_docs(docs):
     return "\n\n".join(doc.page_content for doc in docs)
 def process_pdf(uploaded_file):
-    # with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
-    #     tmp_file.write(uploaded_file.getvalue())
-    #     tmp_file_path = tmp_file.name
-    # try:
-    #     loader = PyPDFLoader(tmp_file_path)
-    #     documents = loader.load()
-    # except Exception as e:
-    #     st.error(f"Đọc file thất bại: {e}")
-    #     return None, 0
-    # semantic_splitter = SemanticChunker(
-    #     embeddings=st.session_state.embeddings,
-    #     buffer_size=1, # total sentence collected before perform text split
-    #     breakpoint_threshold_type='percentile', # set splitting style: 'percentage' of similarity
-    #     breakpoint_threshold_amount=95, # split text if similarity score > 95%
-    #     min_chunk_size=500,
-    #     add_start_index=True, # assign index for chunk
-    # )
-    # docs = semantic_splitter.split_documents(documents)
     df = pd.read_excel("chunk_metadata_template.xlsx")
     docs = []
@@ -121,8 +102,7 @@ def process_pdf(uploaded_file):
             metadata={
                 'chunk_id': row['chunk_id'],
                 'document_title': row['document_title']
-                # 'topic': row['topic'],
-                # 'stakeholder': row['stakeholder']
             }
         )
         docs.append(chunk_with_metadata)
@@ -132,63 +112,12 @@ def process_pdf(uploaded_file):
     retriever = vector_db.as_retriever()
     parser = StrOutputParser()
-    # prompt = PromptTemplate.from_template("""
-        # Trả lời ngắn gọn, rõ ràng bằng tiếng việt và chỉ dựa trên thông tin có sẵn bên dưới.
-        # Nếu không tìm thấy thông tin, hãy nói rõ là không có dữ liệu liên quan.
-        # Nội dung tài liệu:
-        # {context}
-        # Câu hỏi:
-        # {question}
-        # Trả lời:
-    # """)
-    # prompt = PromptTemplate.from_template("""
-    #     Dựa vào nội dung sau, hãy:
-    #     1. Tóm tắt tối đa 3 ý chính, kèm theo số trang nếu có.
-    #     2. Trả lời câu hỏi bằng tiếng Việt ngắn gọn và chính xác.
-    #     3. Nếu không có thông tin liên quan, hãy để `"Trả lời"` là `"Không có dữ liệu liên quan"`.
-    #     Nội dung tài liệu:
-    #     {context}
-    #     Câu hỏi:
-    #     {question}
-    #     Trả lời:
-    # """)
     prompt = PromptTemplate.from_template("""
-        Bạn là trợ lý AI.
-        Dựa vào nội dung sau, hãy:
-        1. Tóm tắt tối đa 3 ý chính, kèm theo số trang nếu có.
-        2. Trả lời câu hỏi bằng tiếng Việt ngắn gọn và chính xác.
-        3. Nếu không có thông tin liên quan, hãy để "Answer" là "Không có dữ liệu liên quan".
-		Đảm bảo trả kết quả **ở dạng JSON** với cấu trúc sau:
-		{{"main_ideas": [
-			{{"point": "Ý chính 1", "source": "Trang ..."}},
-			{{"point": "Ý chính 2", "source": "Trang ..."}},
-			{{"point": "Ý chính 3", "source": "Trang ..."}}
-		],
-		"answer": "Câu trả lời ngắn gọn"
-		}}
-		Vui lòng chỉ in JSON, không giải thích thêm.
-		Context:
-		{context}
-		Question:
-		{question}
-		Answer:
 	""") #? dùng {{ }} để langchain không nhận string bên trong {} là Biến
@@ -207,27 +136,24 @@ st.set_page_config(page_title="PDF RAG Assistant", layout='wide')
 st.title('PDF RAG Assistant')
 st.markdown("""
-  **Ứng dụng AI giúp bạn hỏi đáp trực tiếp với nội dung tài liệu PDF bằng tiếng Việt**
-  **Cách sử dụng đơn giản:**
-  1. **Upload PDF** Chọn file PDF từ máy tính và nhấn "Xử lý PDF"
-  2. **Đặt câu hỏi** Nhập câu hỏi về nội dung tài liệu và nhận câu trả lời ngay lập tức
 """)
 #? Tải models
 if not st.session_state.models_loaded:
-    st.info("Đang tải models...")
     st.session_state.embeddings = load_embeddings()
     st.session_state.llm = load_llm()
     st.session_state.models_loaded = True
-    st.success("Models đã sẵn sàng!")
     st.rerun()
-#? Upload and Process PDF
-uploaded_file = st.file_uploader("Upload file PDF", type="pdf")
-if uploaded_file and st.button("Xử lý PDF"):
-    with st.spinner("Đang xử lý..."):
-        st.session_state.rag_chain, num_chunks = process_pdf(uploaded_file)
-        st.success(f"Hoàn thành! {num_chunks} chunks")
 #? Answers UI

 from langchain import hub
 from langchain_core.prompts import PromptTemplate
 import json
+from sentence_transformers import SentenceTransformer
 # Save RAG chain builded from PDF
 if 'rag_chain' not in st.session_state:
 @st.cache_resource # cache model embeddings, avoid model reloading each runtime
 def load_embeddings():
+    return SentenceTransformer("bkai-foundation-models/vietnamese-bi-encoder")
 # set up config
     return "\n\n".join(doc.page_content for doc in docs)
 def process_pdf(uploaded_file):
     df = pd.read_excel("chunk_metadata_template.xlsx")
     docs = []
             metadata={
                 'chunk_id': row['chunk_id'],
                 'document_title': row['document_title']
             }
         )
         docs.append(chunk_with_metadata)
     retriever = vector_db.as_retriever()
     parser = StrOutputParser()
     prompt = PromptTemplate.from_template("""
+        Bạn là một chuyên viên tư vấn cho khách hàng về sản phẩm bảo hiểm của công ty MB Ageas Life tại Việt Nam.
+    Hãy trả lời  chuyên nghiệp, chính xác, cung cấp thông tin trước rồi hỏi câu tiếp theo. Tất cả các thông tin cung cấp đều trong phạm vi MBAL. Khi có đủ thông tin khách hàng thì mới mời khách hàng đăng ký để nhận tư vấn trên https://www.mbageas.life/
+        {context}
+        Câu hỏi: {question}
+        Trả lời:
 	""") #? dùng {{ }} để langchain không nhận string bên trong {} là Biến
 st.title('PDF RAG Assistant')
 st.markdown("""
+  **Ứng dụng AI giúp bạn hỏi đáp trực tiếp về thông tin các gói bảo hiểm của MB Ageas Life**
 """)
 #? Tải models
 if not st.session_state.models_loaded:
+    st.info("Đang tải model...")
     st.session_state.embeddings = load_embeddings()
     st.session_state.llm = load_llm()
     st.session_state.models_loaded = True
+    st.success("Model đã sẵn sàng!")
     st.rerun()
+# #? Upload and Process PDF
+# uploaded_file = st.file_uploader("Upload file PDF", type="pdf")
+# if uploaded_file and st.button("Xử lý PDF"):
+#     with st.spinner("Đang xử lý..."):
+#         st.session_state.rag_chain, num_chunks = process_pdf(uploaded_file)
+#         st.success(f"Hoàn thành! {num_chunks} chunks")
 #? Answers UI