Spaces:

asadsandhu
/

RAGnosis

Sleeping

asadsandhu commited on Jul 9

Commit

a73c563

1 Parent(s): 876d145

updated.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import pandas as pd
 import faiss
 import numpy as np
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
@@ -54,6 +55,8 @@ You are a medical assistant trained on clinical reasoning data. Given the follow
 def generate_local_answer(prompt, max_new_tokens=512):
     device = torch.device("cpu")
     print(f"Using device: {device}")
     inputs = tokenizer(prompt, return_tensors="pt", padding=True)
     input_ids = inputs["input_ids"].to(device)
     attention_mask = inputs["attention_mask"].to(device)
@@ -62,12 +65,12 @@ def generate_local_answer(prompt, max_new_tokens=512):
         input_ids=input_ids,
         attention_mask=attention_mask,
         max_new_tokens=max_new_tokens,
-        temperature=0.5,
-        do_sample=True,
-        top_k=50,
-        top_p=0.95,
     )
     decoded = tokenizer.decode(output[0], skip_special_tokens=True)
     return decoded.split("### Diagnostic Explanation:")[-1].strip()
 def rag_chat(query):

 import gradio as gr
 import pandas as pd
 import faiss
+import time
 import numpy as np
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 def generate_local_answer(prompt, max_new_tokens=512):
     device = torch.device("cpu")
     print(f"Using device: {device}")
+    start = time.time()
     inputs = tokenizer(prompt, return_tensors="pt", padding=True)
     input_ids = inputs["input_ids"].to(device)
     attention_mask = inputs["attention_mask"].to(device)
         input_ids=input_ids,
         attention_mask=attention_mask,
         max_new_tokens=max_new_tokens,
+        do_sample=False,    # ← GREEDY
+        num_beams=1,
     )
     decoded = tokenizer.decode(output[0], skip_special_tokens=True)
+    print(f"Time taken: {time.time() - start:.2f}s")
     return decoded.split("### Diagnostic Explanation:")[-1].strip()
 def rag_chat(query):