Spaces:

amiguel
/

ai_systems

Sleeping

amiguel commited on Jul 15

Commit

d765c07

verified ·

1 Parent(s): 837d9dd

Upload 5 files

Files changed (5) hide show

src/__init__.py ADDED Viewed

src/file_loader.py ADDED Viewed

+import pandas as pd
+import pdfplumber
+def load_file(uploaded_file):
+    ext = uploaded_file.name.split(".")[-1].lower()
+    if ext == "pdf":
+        with pdfplumber.open(uploaded_file) as pdf:
+            return [page.extract_text() for page in pdf.pages if page.extract_text()]
+    elif ext == "csv":
+        df = pd.read_csv(uploaded_file)
+        return df.astype(str).apply(" ".join, axis=1).tolist()
+    elif ext == "xlsx":
+        df = pd.read_excel(uploaded_file)
+        return df.astype(str).apply(" ".join, axis=1).tolist()
+    else:
+        raise ValueError("Unsupported file type")

src/model_utils.py ADDED Viewed

+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+def load_hf_model(model_name, device="cpu"):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(model_name)
+    return pipeline("text-generation", model=model, tokenizer=tokenizer, device=0 if device=="cuda" else -1)
+def generate_answer(text_gen, question, context):
+    prompt = f"Context: {context}\n\nQuestion: {question}\n\nAnswer:"
+    result = text_gen(prompt, max_new_tokens=256, do_sample=True, temperature=0.7)
+    return result[0]["generated_text"].split("Answer:")[-1].strip()

src/rag_pipeline.py ADDED Viewed

+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+def build_rag_pipeline(docs, embedding_model):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    chunks = splitter.split_documents(docs)
+    embeddings = HuggingFaceEmbeddings(model_name=embedding_model)
+    db = FAISS.from_documents(chunks, embeddings)
+    return db.as_retriever()
+def get_relevant_docs(retriever, query, k=4):
+    return retriever.get_relevant_documents(query)[:k]

src/utils.py ADDED Viewed

+def get_font_css():
+    return """
+    <style>
+    @import url('https://fonts.googleapis.com/css2?family=Tw+Cen+MT:wght@400;700&display=swap');
+    html, body, [class*='css']  {
+        font-family: 'Tw Cen MT', sans-serif !important;
+    }
+    </style>
+    """