kai-llm-insu

Sleeping

App Files Files Community

seawolf2357 commited on Jul 28, 2024

Commit

ea543ab

verified ·

1 Parent(s): 223809d

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -9

app.py CHANGED Viewed

@@ -32,7 +32,7 @@ try:
     with open("jangtest.json", "r", encoding="utf-8") as f:
         dataset = json.load(f)
     logging.info(f"Successfully loaded dataset with {len(dataset)} items.")
-    logging.debug(f"First item in dataset: {dataset[0]}")
 except json.JSONDecodeError as e:
     logging.error(f"Error decoding JSON: {e}")
     logging.error("Please check the 'jangtest.json' file for any formatting errors.")
@@ -85,19 +85,27 @@ async def generate_response(message):
     user_input = message.content
     user_mention = message.author.mention
     # 유사한 데이터 찾기
     most_similar_data = find_most_similar_data(user_input)
     if not most_similar_data:
         return f"{user_mention}, 죄송합니다. 귀하의 질문과 관련된 정보를 찾을 수 없습니다."
     system_message = f"""
     당신은 'kAI'라는 이름의 한국 보험 상품에 대한 AI 조언자입니다.
-    반드시 제공된 데이터셋("json")의 정보만을 사용하여 답변해야 합니다.
     제공된 데이터에 없는 정보에 대해서는 절대 답변하지 마세요.
     모든 답변은 한글로 하고, markdown 형식으로 출력하세요.
     다음은 질문에 관련된 데이터입니다. 이 데이터만을 사용하여 답변하세요:
     {most_similar_data}
     """
     conversation_history.append({"role": "user", "content": user_input})
@@ -122,22 +130,27 @@ async def generate_response(message):
     return f"{user_mention}, {full_response_text}"
 def find_most_similar_data(query):
-    if not dataset_embeddings.numel():
         logging.warning("Dataset is empty")
         return None
     query_embedding = model.encode(query, convert_to_tensor=True)
     cos_scores = util.pytorch_cos_sim(query_embedding, dataset_embeddings)[0]
-    top_result = torch.topk(cos_scores, k=1)
     logging.debug(f"Query: {query}")
-    logging.debug(f"Top similarity score: {top_result.values[0]}")
-    if top_result.values[0] > 0.3:  # 임계값을 0.3으로 낮춤
-        result = json.dumps(dataset[top_result.indices[0]], ensure_ascii=False, indent=2)
-        logging.debug(f"Found similar data: {result}")
-        return result
     else:
         logging.debug("No similar data found")
         return None

     with open("jangtest.json", "r", encoding="utf-8") as f:
         dataset = json.load(f)
     logging.info(f"Successfully loaded dataset with {len(dataset)} items.")
+    logging.debug(f"First item in dataset: {json.dumps(dataset[0], ensure_ascii=False, indent=2)}")
 except json.JSONDecodeError as e:
     logging.error(f"Error decoding JSON: {e}")
     logging.error("Please check the 'jangtest.json' file for any formatting errors.")
     user_input = message.content
     user_mention = message.author.mention
+    logging.debug(f"User input: {user_input}")
     # 유사한 데이터 찾기
     most_similar_data = find_most_similar_data(user_input)
+    logging.debug(f"Most similar data: {most_similar_data}")
     if not most_similar_data:
         return f"{user_mention}, 죄송합니다. 귀하의 질문과 관련된 정보를 찾을 수 없습니다."
     system_message = f"""
     당신은 'kAI'라는 이름의 한국 보험 상품에 대한 AI 조언자입니다.
+    반드시 제공된 데이터셋의 정보만을 사용하여 답변해야 합니다.
     제공된 데이터에 없는 정보에 대해서는 절대 답변하지 마세요.
     모든 답변은 한글로 하고, markdown 형식으로 출력하세요.
     다음은 질문에 관련된 데이터입니다. 이 데이터만을 사용하여 답변하세요:
     {most_similar_data}
+    사용자 질문: {user_input}
+    위 데이터를 기반으로 사용자의 질문에 답변하세요. 데이터에 없는 정보는 언급하지 마세요.
     """
     conversation_history.append({"role": "user", "content": user_input})
     return f"{user_mention}, {full_response_text}"
 def find_most_similar_data(query):
+    if not dataset:
         logging.warning("Dataset is empty")
         return None
     query_embedding = model.encode(query, convert_to_tensor=True)
     cos_scores = util.pytorch_cos_sim(query_embedding, dataset_embeddings)[0]
+    top_results = torch.topk(cos_scores, k=3)  # 상위 3개 결과 반환
     logging.debug(f"Query: {query}")
+    logging.debug(f"Top similarity scores: {top_results.values}")
+    similar_data = []
+    for i, score in enumerate(top_results.values):
+        if score > 0.2:  # 임계값을 0.2로 낮춤
+            item = dataset[top_results.indices[i]]
+            similar_data.append(item)
+            logging.debug(f"Similar data found: {json.dumps(item, ensure_ascii=False, indent=2)}")
+    if similar_data:
+        return json.dumps(similar_data, ensure_ascii=False, indent=2)
     else:
         logging.debug("No similar data found")
         return None