Spaces:

hsuwill000
/

maxtest01

Running

hsuwill000 commited on Jul 3

Commit

19fcbc7

verified ·

1 Parent(s): 687cb99

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,22 +6,10 @@ import time
 from optimum.intel import OVModelForCausalLM, OVWeightQuantizationConfig
 import nncf
 from llama_index.core import SimpleDirectoryReader
 from rank_bm25 import BM25Okapi
 import jieba
-import subprocess
-import os
-os.makedirs("./data/", exist_ok=True)
-url = "https://www.cwa.gov.tw/V8/C/M/Fishery/tide_30day_MOD/T000311.html"
-output_dir = "./data/"
-cmd = ["wget", "-P", output_dir, url]
-try:
-    subprocess.run(cmd, check=True)
-    print("下載成功")
-except subprocess.CalledProcessError as e:
-    print("下載失敗:", e)
 import huggingface_hub as hf_hub
 # 初始化 OpenVINO 模型
 #model_id = "hsuwill000/BitCPM4-1B_int4_ov"
@@ -34,12 +22,18 @@ config.max_new_tokens = 4096
 config.top_p = 0.9;
 config.top_k = 30;
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.get_tokenizer().set_chat_template(pipe.get_tokenizer().chat_template)
-# 載入文件（放 ./data 資料夾，支持多檔案）
-documents = SimpleDirectoryReader("./data").load_data()
 texts = [doc.get_content() for doc in documents]
 # 使用 jieba 斷詞做 BM25
@@ -75,7 +69,7 @@ def generate_stream(prompt):
     # 拼接 prompt，避免全文貼上，只用 top3 段落
     context = "\n\n".join(retrieved_texts)
-    final_prompt = f"根據以下資訊，請簡潔回答問題：\n{context}\n\n問題：{query}\n回答："
     print("=== 最終 prompt ===")
     print(final_prompt)

 from optimum.intel import OVModelForCausalLM, OVWeightQuantizationConfig
 import nncf
 from llama_index.core import SimpleDirectoryReader
+from llama_index.readers.web import BeautifulSoupWebReader
 from rank_bm25 import BM25Okapi
 import jieba
 import huggingface_hub as hf_hub
 # 初始化 OpenVINO 模型
 #model_id = "hsuwill000/BitCPM4-1B_int4_ov"
 config.top_p = 0.9;
 config.top_k = 30;
+reader = BeautifulSoupWebReader()
 pipe = ov_genai.LLMPipeline(model_path, "CPU")
 pipe.get_tokenizer().set_chat_template(pipe.get_tokenizer().chat_template)
+documents = reader.load_data([
+    "https://www.cwa.gov.tw/V8/C/M/Fishery/tide_30day_MOD/T000311.html",
+    "https://www.cwa.gov.tw/V8/C/M/Fishery/tide_30day_MOD/T000305.html",
+    "https://www.cwa.gov.tw/V8/C/M/Fishery/tide_30day_MOD/T000306.html",
+    "https://www.cwa.gov.tw/V8/C/M/Fishery/tide_30day_MOD/T000312.html",
+])
 texts = [doc.get_content() for doc in documents]
 # 使用 jieba 斷詞做 BM25
     # 拼接 prompt，避免全文貼上，只用 top3 段落
     context = "\n\n".join(retrieved_texts)
+    final_prompt = f"根據以下資訊，請簡潔回答問題：\n{context}\n\n問題：{prompt}\n回答："
     print("=== 最終 prompt ===")
     print(final_prompt)