File size: 5,499 Bytes
6dfbc1e
02a2d80
 
eac86d2
8a8d9dd
 
 
 
 
eac86d2
0189c6f
8dfc9e7
cdbe11c
6dfbc1e
8a8d9dd
 
eac86d2
 
 
 
2a0ad25
8a8d9dd
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
eac86d2
2a0ad25
 
eac86d2
 
 
 
8a8d9dd
2a0ad25
 
8a8d9dd
 
2a0ad25
8a8d9dd
eac86d2
 
8a8d9dd
 
 
 
 
 
eac86d2
ae60929
8a8d9dd
eac86d2
d71c024
2a0ad25
 
 
 
d71c024
 
2a0ad25
 
d71c024
2a0ad25
d71c024
 
2a0ad25
d71c024
 
2a0ad25
 
 
8a8d9dd
 
d71c024
8a8d9dd
 
 
 
02a2d80
 
 
 
 
 
6dfbc1e
80d2c6b
 
 
02a2d80
6dfbc1e
8a8d9dd
02a2d80
 
 
 
 
 
8a8d9dd
02a2d80
 
80d2c6b
8a8d9dd
02a2d80
6dfbc1e
8a8d9dd
 
 
6dfbc1e
 
 
02a2d80
80d2c6b
6dfbc1e
 
02a2d80
 
80d2c6b
 
02a2d80
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
import os
import time
import streamlit as st
from transformers import AutoTokenizer, AutoModel
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document as LangchainDocument
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from groq import Groq
import torch
from langchain_core.retrievers import BaseRetriever

# ----------------- تنظیمات صفحه -----------------
st.set_page_config(page_title="چت‌بات ارتش - فقط از PDF", page_icon="🪖", layout="wide")

# ----------------- بارگذاری مدل FarsiBERT -----------------
model_name = "HooshvareLab/bert-fa-zwnj-base"  # مدل BERT فارسی
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# ----------------- لود PDF و ساخت ایندکس -----------------
@st.cache_resource
def build_pdf_index():
    with st.spinner('📄 در حال پردازش فایل PDF...'):
        loader = PyPDFLoader("test1.pdf")
        pages = loader.load()

        # تکه‌تکه کردن متن PDF
        splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,
            chunk_overlap=50
        )

        texts = []
        for page in pages:
            texts.extend(splitter.split_text(page.page_content))

        # تبدیل به Document
        documents = [LangchainDocument(page_content=t) for t in texts]

        # استفاده از FarsiBERT برای تولید امبدینگ
        embeddings = []
        for doc in documents:
            inputs = tokenizer(doc.page_content, return_tensors="pt", padding=True, truncation=True)
            with torch.no_grad():
                outputs = model(**inputs)
            embeddings.append(outputs.last_hidden_state.mean(dim=1).numpy())  # میانگین امبدینگ‌ها

        # به جای FAISS، فقط لیست امبدینگ‌ها را برمی‌گردانیم
        return documents, embeddings

# ----------------- ساختن Index از PDF -----------------
documents, embeddings = build_pdf_index()

# ----------------- تعریف LLM از Groq -----------------
groq_api_key = "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"
client = Groq(api_key=groq_api_key)

class GroqLLM(OpenAI):
    def __init__(self, api_key, model_name):
        super().__init__(openai_api_key=api_key, model_name=model_name, base_url="https://api.groq.com/openai/v1")

# مدل Groq را با API خود بارگذاری کنید
llm = GroqLLM(api_key=groq_api_key, model_name="deepseek-r1-distill-llama-70b")

# ----------------- ساخت SimpleRetriever -----------------
class SimpleRetriever(BaseRetriever):
    def __init__(self, documents, embeddings):
        self.documents = documents
        self.embeddings = embeddings

    def _get_relevant_documents(self, query):
        query_embedding = nlp(query).vector  # تبدیل سوال به امبدینگ با استفاده از spaCy
        similarities = []
        for doc_embedding in self.embeddings:
            similarity = query_embedding.dot(doc_embedding)  # محاسبه شباهت بین امبدینگ‌ها
            similarities.append(similarity)
        
        # یافتن مستندات مشابه بر اساس بیشترین شباهت
        ranked_docs = sorted(zip(similarities, self.documents), reverse=True)
        return [doc for _, doc in ranked_docs[:5]]  # بازگرداندن 5 مستند مشابه


retriever = SimpleRetriever(documents, embeddings)

chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,  # ارسال نمونه از retriever
    chain_type="stuff",
    input_key="question"
)
# ----------------- استیت برای چت -----------------
if 'messages' not in st.session_state:
    st.session_state.messages = []

if 'pending_prompt' not in st.session_state:
    st.session_state.pending_prompt = None

# ----------------- نمایش پیام‌های قبلی -----------------
for msg in st.session_state.messages:
    with st.chat_message(msg['role']):
        st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)

# ----------------- ورودی چت -----------------
prompt = st.chat_input("سوالی در مورد فایل بپرس...")

if prompt:
    st.session_state.messages.append({'role': 'user', 'content': prompt})
    st.session_state.pending_prompt = prompt
    st.rerun()

# ----------------- پاسخ مدل فقط از روی PDF -----------------
if st.session_state.pending_prompt:
    with st.chat_message('ai'):
        thinking = st.empty()
        thinking.markdown("🤖 در حال فکر کردن از روی PDF...")

        try:
            # گرفتن جواب فقط از PDF
            response = chain.run(f"سوال: {st.session_state.pending_prompt}")
            answer = response.strip()

        except Exception as e:
            answer = f"خطا در پاسخ‌دهی: {str(e)}"

        thinking.empty()

        # انیمیشن تایپ پاسخ
        full_response = ""
        placeholder = st.empty()
        for word in answer.split():
            full_response += word + " "
            placeholder.markdown(full_response + "▌")
            time.sleep(0.03)

        placeholder.markdown(full_response)
        st.session_state.messages.append({'role': 'ai', 'content': full_response})
        st.session_state.pending_prompt = None