import gradio as gr import spaces from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_name = "rubenroy/Zurich-7b-GCv2-5m" model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.bfloat16, device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained(model_name) @spaces.GPU def generate(prompt, history): messages = [ {"role": "system", "content": "You are Zurich, a 7 billion parameter Large Language model built on the Qwen 2.5 7B model developed by Alibaba Cloud, and fine-tuned by Ruben Roy. You have been fine-tuned with the GammaCorpus v2 dataset, a dataset filled with structured and filtered multi-turn conversations and was also created by Ruben Roy. You are a helpful assistant."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate( **model_inputs, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] return response TITLE_HTML = """

Zurich

GammaCorpus v2-5m

Fine-tuned from Qwen 2.5 7B Instruct | Model: Zurich-7b-GCv2-5m | Training Dataset: GammaCorpus v2 5m

7B Models

Zurich 7B GCv2 5m Zurich 7B GCv2 1m Zurich 7B GCv2 500k Zurich 7B GCv2 100k Zurich 7B GCv2 50k Zurich 7B GCv2 10k

14B Models

Zurich 14B GCv2 5m Zurich 14B GCv2 1m Zurich 14B GCv2 500k Zurich 14B GCv2 100k Zurich 14B GCv2 50k Zurich 14B GCv2 10k

""" with gr.Blocks() as demo: gr.HTML(TITLE_HTML) chat_interface = gr.ChatInterface( fn=generate, ) demo.launch(share=True)