Spaces:

asadsandhu
/

RAGnosis

Sleeping

asadsandhu commited on Jul 8

Commit

86d4de7

1 Parent(s): ffa32ca

Modified.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -67,18 +67,25 @@ You are a medical assistant trained on clinical reasoning data. Given the follow
 """
     return prompt
-# ✅ FIXED generate_local_answer
 def generate_local_answer(prompt, max_new_tokens=512):
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
     output = generation_model.generate(
         input_ids=input_ids,
         max_new_tokens=max_new_tokens,
         temperature=0.5,
         do_sample=True,
         top_k=50,
         top_p=0.95,
     )
     decoded = tokenizer.decode(output[0], skip_special_tokens=True)
     return decoded.split("### Diagnostic Explanation:")[-1].strip()
@@ -126,5 +133,4 @@ Enter a natural-language query describing your patient's condition to receive an
     submit_btn.click(fn=rag_chat, inputs=query_input, outputs=output)
-# ✅ Use `share=False` inside Hugging Face Spaces
 demo.launch(share=False)

 """
     return prompt
 def generate_local_answer(prompt, max_new_tokens=512):
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    # Tokenize with attention mask
+    tokens = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=1024)
+    input_ids = tokens["input_ids"].to(device)
+    attention_mask = tokens["attention_mask"].to(device)
+    # Generate
     output = generation_model.generate(
         input_ids=input_ids,
+        attention_mask=attention_mask,
         max_new_tokens=max_new_tokens,
         temperature=0.5,
         do_sample=True,
         top_k=50,
         top_p=0.95,
     )
     decoded = tokenizer.decode(output[0], skip_special_tokens=True)
     return decoded.split("### Diagnostic Explanation:")[-1].strip()
     submit_btn.click(fn=rag_chat, inputs=query_input, outputs=output)
 demo.launch(share=False)