llamacpp-flan-t5-large-grammar-synthesis

Sleeping

Akjava commited on Mar 19

Commit

e557599

verified ·

1 Parent(s): fe3bbf5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -288,10 +288,13 @@ def respond(
     tokens = llama.tokenize(f"<2ja>{message}".encode("utf-8"))
     llama.encode(tokens)
     tokens = [llama.decoder_start_token()]
     for token in llama.generate(tokens, top_k=40, top_p=0.95, temp=1, repeat_penalty=1.0):
-        yield (llama.detokenize([token]).decode())
         if token == llama.token_eos():
             break
     """
     Respond to a message using the Gemma3 model via Llama.cpp.

     tokens = llama.tokenize(f"<2ja>{message}".encode("utf-8"))
     llama.encode(tokens)
     tokens = [llama.decoder_start_token()]
+    outputs =""
     for token in llama.generate(tokens, top_k=40, top_p=0.95, temp=1, repeat_penalty=1.0):
+        outputs+= llama.detokenize([token]).decode()
+        yield outputs
         if token == llama.token_eos():
             break
+    return outputs
     """
     Respond to a message using the Gemma3 model via Llama.cpp.