Spaces:

helmfridsson
/

citrus

Sleeping

File size: 7,714 Bytes

1e5b35e
 
1b048ee
1e5b35e
505fff5
 
b944ab4
405b739
 
1e5b35e
effe83f
e69fcb5
a04ba24
4416daf
 
 
 
cd31712
 
f9a8906
1e5b35e
 
 
 
ee59dc1
e69fcb5
a04ba24
1e5b35e
 
 
effe83f
1e5b35e
a04ba24
 
1e5b35e
a04ba24
 
1e5b35e
 
effe83f
a04ba24
1e5b35e
a04ba24
 
1e5b35e
 
 
f9a8906
a04ba24
f9a8906
1e5b35e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f9a8906
1e5b35e
e69fcb5
f9a8906
 
 
 
 
1e5b35e
 
 
 
3ebf529
1e5b35e
 
 
3ebf529
 
1e5b35e
 
 
 
 
849e3ea
 
 
 
3ebf529
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
effe83f
487fc40
1e5b35e
 
 
3ebf529
1e5b35e
 
 
 
 
487fc40
1e5b35e
43f53c1
effe83f
43f53c1
1e5b35e
ad7b39c
487fc40
1e5b35e
1b048ee
1e5b35e
 
4416daf
1b048ee
7894f40
1e5b35e
 
 
babd2a7
a04ba24
43f53c1
f9a8906
2ad3344
 
 
1e5b35e
30881d9
f9a8906
 
7894f40
1e5b35e
2ad3344
9b4fbc6
fb858f0
1e5b35e

# ── app.py ───────────────────────────────────────────────────────────
import os, logging, textwrap
import gradio as gr
from transformers import pipeline, AutoTokenizer
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter

# ── KONFIG ───────────────────────────────────────────────────────────
DOCS_DIR       = "document"
INDEX_DIR      = "faiss_index"
EMB_MODEL      = "KBLab/sentence-bert-swedish-cased"
#LLM_MODEL      = "tiiuae/falcon-rw-1b" # Dålig
#LLM_MODEL      = "google/flan-t5-base" # Dålig
#LLM_MODEL      = "bigscience/bloom-560m" # Dålig
#LLM_MODEL      = "NbAiLab/nb-gpt-j-6B" #- Restricted 
#LLM_MODEL      = "datificate/gpt2-small-swedish" # Finns ej på Hugging face
LLM_MODEL      =  "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

CHUNK_SIZE     = 400
CHUNK_OVERLAP  = 40
CTX_TOK_MAX    = 750          # sparar marginal till fråga + svar
MAX_NEW_TOKENS = 128
K              = 3
DEFAULT_TEMP   = 0.3

# ── LOGGING ──────────────────────────────────────────────────────────
logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
log = logging.getLogger(__name__)

# ── 1) Index (bygg eller ladda) ─────────────────────────────────────
emb = HuggingFaceEmbeddings(model_name=EMB_MODEL)
if os.path.isdir(INDEX_DIR):
    log.info(f"🔄 Laddar index från {INDEX_DIR}")
    vs = FAISS.load_local(INDEX_DIR, emb)
else:
    splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
    docs, pdfs = [], []
    for fn in os.listdir(DOCS_DIR):
        if fn.lower().endswith(".pdf"):
            chunks = splitter.split_documents(PyPDFLoader(os.path.join(DOCS_DIR, fn)).load())
            for c in chunks:
                c.metadata["source"] = fn
            docs.extend(chunks); pdfs.append(fn)
    vs = FAISS.from_documents(docs, emb); vs.save_local(INDEX_DIR)
    log.info(f"✅ Byggt index – {len(pdfs)} PDF / {len(docs)} chunkar")

retriever = vs.as_retriever(search_kwargs={"k": K})

# ── 2) LLM‑pipeline & tokenizer ─────────────────────────────────────
log.info("🚀 Initierar LLM …")
gen_pipe  = pipeline("text-generation", model=LLM_MODEL, device=-1, max_new_tokens=MAX_NEW_TOKENS)
tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
log.info("✅ LLM klar")

# ── 3) Hjälpfunktioner ──────────────────────────────────────────────
def build_prompt(query: str, docs):
    """
    Tar så många chunkar som ryms i CTX_TOK_MAX token
    """
    context_parts = []
    total_ctx_tok = 0
    for d in docs:
        tok_len = len(tokenizer.encode(d.page_content))
        if total_ctx_tok + tok_len > CTX_TOK_MAX:
            break
        context_parts.append(d.page_content)
        total_ctx_tok += tok_len

    context = "\n\n---\n\n".join(context_parts)
    return textwrap.dedent(f"""\
        Du är en hjälpsam assistent som svarar på svenska.
        Kontext (hämtat ur PDF‑dokument):

        {context}

        Fråga: {query}
        Svar (svenska):""").strip()

def test_retrieval(q):  # snabb‑test utan AI
    docs = retriever.invoke(q)
    return "\n\n".join([f"{i+1}. ({d.metadata['source']}) {d.page_content[:160]}…" for i, d in enumerate(docs)]) or "🚫 Inga träffar"

def chat_fn(q, temp, max_new_tokens, k, ctx_tok_max, history):
    history = history or []
    history.append({"role": "user", "content": q})

    # Skapa en ny retriever med valt k
    retriever = vs.as_retriever(search_kwargs={"k": int(k)})
    docs = retriever.invoke(q)
    if not docs:
        history.append({"role": "assistant", "content": "🚫 Hittade inget relevant."})
        return history, history

    # Visa chunkar som används
    chunk_info = "\n\n".join([f"{i+1}. ({d.metadata['source']}) {d.page_content[:160]}…" for i, d in enumerate(docs)])
    history.append({"role": "system", "content": f"🔎 Chunkar som används:\n{chunk_info}"})

    # Bygg prompt med valt ctx_tok_max
    def build_prompt_dynamic(query, docs, ctx_tok_max):
        context_parts = []
        total_ctx_tok = 0
        for d in docs:
            tok_len = len(tokenizer.encode(d.page_content))
            if total_ctx_tok + tok_len > int(ctx_tok_max):
                break
            context_parts.append(d.page_content)
            total_ctx_tok += tok_len
        context = "\n\n---\n\n".join(context_parts)
        return textwrap.dedent(f"""\
            Du är en hjälpsam assistent som svarar på svenska.
            Kontext (hämtat ur PDF‑dokument):

            {context}

            Fråga: {query}
            Svar (svenska):""").strip()

    prompt = build_prompt_dynamic(q, docs, ctx_tok_max)
    log.info(f"Prompt tokens={len(tokenizer.encode(prompt))}  temp={temp}  max_new_tokens={max_new_tokens} k={k} ctx_tok_max={ctx_tok_max}")

    try:
        ans = gen_pipe(
            prompt,
            temperature=float(temp),
            max_new_tokens=int(max_new_tokens),
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id,
            do_sample=True,
            return_full_text=False
        )[0]["generated_text"]
    except Exception as e:
        log.exception("Genererings‑fel")
        ans = f"❌ Fel vid generering: {type(e).__name__}: {e}\n\nPrompt:\n{prompt}"

    src_hint = docs[0].metadata["source"] if docs else "Ingen källa"
    history.append({"role": "assistant", "content": f"**(Källa: {src_hint})**\n\n{ans}"})
    return history, history

# ── 4) Gradio UI ────────────────────────────────────────────────────
with gr.Blocks() as demo:
    gr.Markdown("# 📚 Svensk RAG‑chat")
    gr.Markdown(f"**PDF‑filer:** {', '.join(os.listdir(DOCS_DIR)) or '–'}")
    gr.Markdown(f"**LLM-modell som används:** `{LLM_MODEL}`", elem_id="llm-info")

    with gr.Row():
        q_test = gr.Textbox(label="🔎 Test Retrieval")
        b_test = gr.Button("Testa")
        o_test = gr.Textbox(label="Chunkar")

    with gr.Row():
        q_in   = gr.Textbox(label="Fråga", placeholder="Ex: Vad är förvaltningsöverlämnande?")
        temp   = gr.Slider(0, 1, value=DEFAULT_TEMP, step=0.05, label="Temperatur")
        max_new_tokens = gr.Slider(32, 256, value=MAX_NEW_TOKENS, step=8, label="Max svarslängd (tokens)")
        k      = gr.Slider(1, 10, value=K, step=1, label="Antal chunkar (K)")
        ctx_tok_max = gr.Slider(100, 2000, value=CTX_TOK_MAX, step=50, label="Max kontexttokens")
        b_send = gr.Button("Skicka")

    chat      = gr.Chatbot(type="messages", label="Chat")
    chat_hist = gr.State([])

    b_test.click(test_retrieval, inputs=[q_test], outputs=[o_test])
    b_send.click(chat_fn, inputs=[q_in, temp, max_new_tokens, k, ctx_tok_max, chat_hist], outputs=[chat, chat_hist])

if __name__ == "__main__":
    demo.launch(share=True)   # ta bort share=True om du vill hålla den privat