Spaces:

diginoron
/

tiyam-chatbot

Sleeping

App Files Files Community

diginoron commited on Mar 27

Commit

d2af11c

verified ·

1 Parent(s): c7083c4

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -8

app.py CHANGED Viewed

@@ -17,13 +17,13 @@ HF_TOKEN = os.environ.get("HF_TOKEN")
 if not HF_TOKEN:
     raise ValueError("❌ سکرت HF_TOKEN یافت نشد. لطفاً آن را در Settings > Secrets ثبت کنید.")
-# 🔐 ورود به Hugging Face برای دسترسی به مدل خصوصی
 login(token=HF_TOKEN)
-# 🔹 بارگذاری مدل embedding خصوصی
 embedding_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
-# 🔹 بارگذاری داده محلی (اختیاری برای تست یا توسعه)
 with open("tiyam_qa_data.json", "r", encoding="utf-8") as f:
     data = json.load(f)
@@ -31,13 +31,13 @@ with open("tiyam_qa_data.json", "r", encoding="utf-8") as f:
 pc = Pinecone(api_key=PINECONE_API_KEY)
 index = pc.Index(PINECONE_INDEX_NAME)
-# 🔹 بارگذاری مدل GEMMA برای بازنویسی طبیعی پاسخ
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it", token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", token=HF_TOKEN)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model = model.to(device)
-# 🔹 گرفتن پاسخ خام از Pinecone
 def retrieve_answer(query, threshold=0.65, top_k=3):
     query_embedding = embedding_model.encode([query])[0]
     result = index.query(vector=query_embedding.tolist(), top_k=top_k, include_metadata=True)
@@ -48,16 +48,25 @@ def retrieve_answer(query, threshold=0.65, top_k=3):
     else:
         return "متأسفم، پاسخ دقیقی برای این سوال نداریم. لطفاً با ما تماس بگیرید."
-# 🔹 بازنویسی پاسخ خام با GEMMA
 def rewrite_answer(question, retrieved_answer):
     prompt = f"""سؤال: {question}
 پاسخ اولیه: {retrieved_answer}
 پاسخ نهایی را به زبان طبیعی، حرفه‌ای و دوستانه بازنویسی کن:"""
     inputs = tokenizer(prompt, return_tensors="pt").to(device)
     outputs = model.generate(
         **inputs,
-        max_new_tokens=96,
         temperature=0.7,
         do_sample=True,
         top_p=0.9
@@ -65,12 +74,16 @@ def rewrite_answer(question, retrieved_answer):
     final_answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return final_answer.replace(prompt, "").strip()
-# 🔹 رابط Gradio
 def chat_interface(question):
     raw_answer = retrieve_answer(question)
     final_answer = rewrite_answer(question, raw_answer)
     return final_answer
 demo = gr.Interface(
     fn=chat_interface,
     inputs="text",

 if not HF_TOKEN:
     raise ValueError("❌ سکرت HF_TOKEN یافت نشد. لطفاً آن را در Settings > Secrets ثبت کنید.")
+# 🔐 ورود به Hugging Face برای استفاده از مدل خصوصی
 login(token=HF_TOKEN)
+# 🔹 بارگذاری مدل embedding
 embedding_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+# 🔹 بارگذاری داده‌های اولیه (اختیاری)
 with open("tiyam_qa_data.json", "r", encoding="utf-8") as f:
     data = json.load(f)
 pc = Pinecone(api_key=PINECONE_API_KEY)
 index = pc.Index(PINECONE_INDEX_NAME)
+# 🔹 بارگذاری مدل بازنویسی GEMMA
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it", token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", token=HF_TOKEN)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model = model.to(device)
+# 🔍 بازیابی پاسخ اولیه از Pinecone
 def retrieve_answer(query, threshold=0.65, top_k=3):
     query_embedding = embedding_model.encode([query])[0]
     result = index.query(vector=query_embedding.tolist(), top_k=top_k, include_metadata=True)
     else:
         return "متأسفم، پاسخ دقیقی برای این سوال نداریم. لطفاً با ما تماس بگیرید."
+# 🧠 بازنویسی پاسخ با تعیین هوشمند تعداد توکن‌ها
 def rewrite_answer(question, retrieved_answer):
     prompt = f"""سؤال: {question}
 پاسخ اولیه: {retrieved_answer}
 پاسخ نهایی را به زبان طبیعی، حرفه‌ای و دوستانه بازنویسی کن:"""
+    # 🔍 تعیین طول هوشمندانه توکن خروجی
+    base_len = len(retrieved_answer)
+    if base_len < 60:
+        max_tokens = 64
+    elif base_len < 150:
+        max_tokens = 96
+    else:
+        max_tokens = 128
     inputs = tokenizer(prompt, return_tensors="pt").to(device)
     outputs = model.generate(
         **inputs,
+        max_new_tokens=max_tokens,
         temperature=0.7,
         do_sample=True,
         top_p=0.9
     final_answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return final_answer.replace(prompt, "").strip()
+# 🧪 تابع نهایی چت
 def chat_interface(question):
+    print("📥 سوال دریافت شد:", question)
     raw_answer = retrieve_answer(question)
+    print("📤 پاسخ خام از Pinecone:", raw_answer)
     final_answer = rewrite_answer(question, raw_answer)
+    print("✅ پاسخ نهایی بازنویسی‌شده:", final_answer)
     return final_answer
+# 🌐 رابط کاربری Gradio
 demo = gr.Interface(
     fn=chat_interface,
     inputs="text",