Spaces:

helmfridsson
/

citrus

Sleeping

App Files Files Community

tomas.helmfridsson commited on Jul 23

Commit

3b838f7

1 Parent(s): 405b739

update 29

Browse files

Files changed (1) hide show

app.py +21 -35

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from langchain_huggingface.llms import HuggingFacePipeline
 from langchain.chains import RetrievalQA
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-# ── 1) Ladda & chunka PDF:er ───────────────────────────────────
 all_docs, files = [], []
 splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=30)
@@ -16,84 +16,71 @@ for fn in os.listdir("document"):
     if fn.lower().endswith(".pdf"):
         path   = os.path.join("document", fn)
         loader = PyPDFLoader(path)
-        pages  = loader.load()                    # lista av Document-objekt
-        chunks = splitter.split_documents(pages)  # dela upp i kortare chunkar
         all_docs.extend(chunks)
         files.append(fn)
-# ── 2) Skapa embedding + FAISS──────────────────────────────────
 emb = HuggingFaceEmbeddings(model_name="KBLab/sentence-bert-swedish-cased")
 vs  = FAISS.from_documents(all_docs, emb)
-# ── 3) Initiera LLM & RetrievalQA──────────────────────────────
 pipe = pipeline(
     "text-generation",
     model="tiiuae/falcon-rw-1b",
-    device=-1,              # CPU-only på gratis Space
-    max_new_tokens=64       # kortare svar för snabbare körning
 )
 llm = HuggingFacePipeline(
     pipeline=pipe,
-    model_kwargs={"temperature": 0.3},
-    streaming=True          # aktivera live-streaming av svar
 )
-# Retrievern hämtar bara 1 chunk för max snabbhet
 retriever = vs.as_retriever(search_kwargs={"k": 1})
 qa = RetrievalQA.from_chain_type(
     llm=llm,
     retriever=retriever,
     chain_type="stuff"
 )
-# ── 4) Chat-funktion i “messages”-format─────────────────────────
 def chat_fn(message, temperature, history):
     history = history or []
     if not message.strip():
-        history.append({"role": "assistant", "content": "⚠️ Du måste skriva en fråga."})
         return history
-    history.append({"role": "user", "content": message})
     if len(message) > 1000:
         history.append({
-            "role": "assistant",
-            "content": f"⚠️ Frågan är för lång ({len(message)} tecken)."
         })
         return history
     llm.model_kwargs["temperature"] = temperature
     try:
-        svar = qa.invoke({"query": message})["result"]
     except Exception as e:
         svar = f"❌ Ett fel uppstod: {e}"
-    history.append({"role": "assistant", "content": svar})
     return history
-# ── 5) Bygg Gradio-UI & publicera────────────────────────────────
 with gr.Blocks() as demo:
     gr.Markdown("## 🌟 Dokumentassistent (Svenska)")
-    gr.Markdown(
-        "**✅ Laddade PDF-filer:**\n\n" +
-        "\n".join(f"- {f}" for f in files)
-    )
     with gr.Row():
-        txt   = gr.Textbox(
-            lines=2,
-            label="Din fråga:",
-            placeholder="Exempel: Vad anges förberedelser inför möte?"
-        )
-        temp  = gr.Slider(
-            0.0, 1.0, value=0.3, step=0.05,
-            label="Temperatur"
-        )
         send  = gr.Button("Skicka")
-    chatbot    = gr.Chatbot(value=[], type="messages", streaming=True)
     chat_state = gr.State([])
     send.click(
@@ -103,5 +90,4 @@ with gr.Blocks() as demo:
     )
 if __name__ == "__main__":
-    # share=True ger en publik länk till ditt Space
     demo.launch(share=True)

 from langchain.chains import RetrievalQA
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+# ── 1) Ladda & dela upp PDF:er ────────────────────────────────
 all_docs, files = [], []
 splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=30)
     if fn.lower().endswith(".pdf"):
         path   = os.path.join("document", fn)
         loader = PyPDFLoader(path)
+        pages  = loader.load()
+        chunks = splitter.split_documents(pages)
         all_docs.extend(chunks)
         files.append(fn)
+# ── 2) Bygg FAISS med svenska-embedding────────────────────────
 emb = HuggingFaceEmbeddings(model_name="KBLab/sentence-bert-swedish-cased")
 vs  = FAISS.from_documents(all_docs, emb)
+# ── 3) Initiera CPU‐pipeline för Falcon-1B───────────────────
 pipe = pipeline(
     "text-generation",
     model="tiiuae/falcon-rw-1b",
+    device=-1,
+    max_new_tokens=64
 )
 llm = HuggingFacePipeline(
     pipeline=pipe,
+    model_kwargs={"temperature": 0.3}
 )
 retriever = vs.as_retriever(search_kwargs={"k": 1})
 qa = RetrievalQA.from_chain_type(
     llm=llm,
     retriever=retriever,
     chain_type="stuff"
 )
+# ── 4) Chat‐funktion i “messages”─format────────────────────────
 def chat_fn(message, temperature, history):
     history = history or []
     if not message.strip():
+        history.append({"role":"assistant","content":"⚠️ Du måste skriva en fråga."})
         return history
+    history.append({"role":"user","content":message})
     if len(message) > 1000:
         history.append({
+            "role":"assistant",
+            "content":f"⚠️ Frågan är för lång ({len(message)} tecken)."
         })
         return history
     llm.model_kwargs["temperature"] = temperature
     try:
+        svar = qa.invoke({"query":message})["result"]
     except Exception as e:
         svar = f"❌ Ett fel uppstod: {e}"
+    history.append({"role":"assistant","content":svar})
     return history
+# ── 5) Gradio‐UI & public link──────────────────────────────────
 with gr.Blocks() as demo:
     gr.Markdown("## 🌟 Dokumentassistent (Svenska)")
+    gr.Markdown("**✅ Laddade PDF-filer:**\n\n" + "\n".join(f"- {f}" for f in files))
     with gr.Row():
+        txt   = gr.Textbox(lines=2, label="Din fråga:",
+                           placeholder="Ex: Vad anges för krav?")
+        temp  = gr.Slider(0.0,1.0,value=0.3,step=0.05,label="Temperatur")
         send  = gr.Button("Skicka")
+    chatbot    = gr.Chatbot(value=[], type="messages")
     chat_state = gr.State([])
     send.click(
     )
 if __name__ == "__main__":
     demo.launch(share=True)