Spaces:

helmfridsson
/

citrus

Sleeping

App Files Files Community

tomas.helmfridsson commited on 19 days ago

Commit

ad7b39c

1 Parent(s): 3b838f7

update 30

Browse files

Files changed (1) hide show

app.py +35 -22

app.py CHANGED Viewed

@@ -8,35 +8,36 @@ from langchain_huggingface.llms import HuggingFacePipeline
 from langchain.chains import RetrievalQA
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-# ── 1) Ladda & dela upp PDF:er ────────────────────────────────
 all_docs, files = [], []
 splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=30)
 for fn in os.listdir("document"):
     if fn.lower().endswith(".pdf"):
-        path   = os.path.join("document", fn)
         loader = PyPDFLoader(path)
-        pages  = loader.load()
-        chunks = splitter.split_documents(pages)
         all_docs.extend(chunks)
         files.append(fn)
-# ── 2) Bygg FAISS med svenska-embedding────────────────────────
 emb = HuggingFaceEmbeddings(model_name="KBLab/sentence-bert-swedish-cased")
 vs  = FAISS.from_documents(all_docs, emb)
-# ── 3) Initiera CPU‐pipeline för Falcon-1B───────────────────
 pipe = pipeline(
     "text-generation",
     model="tiiuae/falcon-rw-1b",
-    device=-1,
-    max_new_tokens=64
 )
 llm = HuggingFacePipeline(
     pipeline=pipe,
     model_kwargs={"temperature": 0.3}
 )
 retriever = vs.as_retriever(search_kwargs={"k": 1})
 qa = RetrievalQA.from_chain_type(
     llm=llm,
@@ -44,40 +45,51 @@ qa = RetrievalQA.from_chain_type(
     chain_type="stuff"
 )
-# ── 4) Chat‐funktion i “messages”─format────────────────────────
 def chat_fn(message, temperature, history):
     history = history or []
     if not message.strip():
-        history.append({"role":"assistant","content":"⚠️ Du måste skriva en fråga."})
-        return history
-    history.append({"role":"user","content":message})
     if len(message) > 1000:
         history.append({
-            "role":"assistant",
-            "content":f"⚠️ Frågan är för lång ({len(message)} tecken)."
         })
-        return history
     llm.model_kwargs["temperature"] = temperature
     try:
-        svar = qa.invoke({"query":message})["result"]
     except Exception as e:
         svar = f"❌ Ett fel uppstod: {e}"
-    history.append({"role":"assistant","content":svar})
-    return history
-# ── 5) Gradio‐UI & public link──────────────────────────────────
 with gr.Blocks() as demo:
     gr.Markdown("## 🌟 Dokumentassistent (Svenska)")
     gr.Markdown("**✅ Laddade PDF-filer:**\n\n" + "\n".join(f"- {f}" for f in files))
     with gr.Row():
-        txt   = gr.Textbox(lines=2, label="Din fråga:",
-                           placeholder="Ex: Vad anges för krav?")
-        temp  = gr.Slider(0.0,1.0,value=0.3,step=0.05,label="Temperatur")
         send  = gr.Button("Skicka")
     chatbot    = gr.Chatbot(value=[], type="messages")
@@ -90,4 +102,5 @@ with gr.Blocks() as demo:
     )
 if __name__ == "__main__":
     demo.launch(share=True)

 from langchain.chains import RetrievalQA
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+# ── 1) Ladda PDF:er och dela upp i korta chunkar ────────────
 all_docs, files = [], []
 splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=30)
 for fn in os.listdir("document"):
     if fn.lower().endswith(".pdf"):
+        path = os.path.join("document", fn)
         loader = PyPDFLoader(path)
+        pages = loader.load()                      # en lista av Document-objekt
+        chunks = splitter.split_documents(pages)   # dela upp i mindre bitar
         all_docs.extend(chunks)
         files.append(fn)
+# ── 2) Skapa vektorer med svenska embeddings ────────────────
 emb = HuggingFaceEmbeddings(model_name="KBLab/sentence-bert-swedish-cased")
 vs  = FAISS.from_documents(all_docs, emb)
+# ── 3) Initiera LLM-pipeline (CPU-only) ───────────────────────
 pipe = pipeline(
     "text-generation",
     model="tiiuae/falcon-rw-1b",
+    device=-1,               # CPU
+    max_new_tokens=64        # kortare svar → snabbare
 )
 llm = HuggingFacePipeline(
     pipeline=pipe,
     model_kwargs={"temperature": 0.3}
 )
+# ── 4) Bygg RetrievalQA med bara 1 chunk ────────────────────
 retriever = vs.as_retriever(search_kwargs={"k": 1})
 qa = RetrievalQA.from_chain_type(
     llm=llm,
     chain_type="stuff"
 )
+# ── 5) Chat-funktion som returnerar både history & state ─────
 def chat_fn(message, temperature, history):
     history = history or []
     if not message.strip():
+        history.append({"role": "assistant", "content": "⚠️ Du måste skriva en fråga."})
+        return history, history
+    # Lägg till användarens fråga
+    history.append({"role": "user", "content": message})
+    # För långa frågor
     if len(message) > 1000:
         history.append({
+            "role": "assistant",
+            "content": f"⚠️ Frågan är för lång ({len(message)} tecken)."
         })
+        return history, history
+    # Justera temperatur
     llm.model_kwargs["temperature"] = temperature
+    # Kör RAG-kedjan
     try:
+        svar = qa.invoke({"query": message})["result"]
     except Exception as e:
         svar = f"❌ Ett fel uppstod: {e}"
+    history.append({"role": "assistant", "content": svar})
+    return history, history
+# ── 6) Bygg Gradio-UI & publicera ─────────────────────────────
 with gr.Blocks() as demo:
     gr.Markdown("## 🌟 Dokumentassistent (Svenska)")
     gr.Markdown("**✅ Laddade PDF-filer:**\n\n" + "\n".join(f"- {f}" for f in files))
     with gr.Row():
+        txt   = gr.Textbox(
+            lines=2,
+            label="Din fråga:",
+            placeholder="Exempel: Vad anges förberedelser inför möte?"
+        )
+        temp  = gr.Slider(
+            0.0, 1.0, value=0.3, step=0.05,
+            label="Temperatur"
+        )
         send  = gr.Button("Skicka")
     chatbot    = gr.Chatbot(value=[], type="messages")
     )
 if __name__ == "__main__":
+    # share=True ger en publik länk till ditt Space
     demo.launch(share=True)