Spaces:

Kashmir96
/

primus

Sleeping

File size: 1,597 Bytes

b7d4188
 
 
8162eaa
 
b7d4188
 
 
8162eaa
b7d4188
8162eaa
 
 
 
b7d4188
8162eaa
b7d4188
 
8162eaa
 
 
 
 
b7d4188
 
 
8162eaa
b7d4188
8162eaa
 
b7d4188
 
 
8162eaa
b7d4188
8162eaa
 
b7d4188
 
 
 
8162eaa
b7d4188
8162eaa
b7d4188
 
 
 
 
 
 
8162eaa
b7d4188

import gradio as gr
from huggingface_hub import InferenceClient

# Use the Primus-Merged model from Hugging Face
client = InferenceClient("trendmicro-ailab/Llama-Primus-Merged")


def respond(
    message: str,
    history: list[tuple[str, str]],
    system_message: str,
    max_tokens: int,
    temperature: float,
    top_p: float,
):
    # Build chat messages payload
    messages = [{"role": "system", "content": system_message}]

    for user_msg, bot_msg in history:
        if user_msg:
            messages.append({"role": "user", "content": user_msg})
        if bot_msg:
            messages.append({"role": "assistant", "content": bot_msg})

    messages.append({"role": "user", "content": message})

    # Streamed response
    response = ""
    for chunk in client.chat_completion(
        messages=messages,
        max_tokens=max_tokens,
        temperature=temperature,
        top_p=top_p,
        stream=True,
    ):
        delta = chunk.choices[0].delta.content or ""
        response += delta
        yield response


demo = gr.ChatInterface(
    fn=respond,
    additional_inputs=[
        gr.Textbox(value="You are a helpful security assistant.", label="System message"),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)"
        ),
    ],
)

if __name__ == "__main__":
    demo.launch()