from llama_cpp import Llama llm = Llama( model_path="models/Nous-Hermes-2-Mistral-7B-DPO.Q4_K_M.gguf", # ajuste le chemin si nécessaire n_ctx=2048, n_threads=4 ) response = llm("### Instruction: Quelle est la capitale du Sénégal ?\n### Réponse:", max_tokens=128) print(response["choices"][0]["text"])