gpt-oss-20b-mutlilingual-reasoning

Running

Tonic commited on Aug 6

Commit

80434d8

verified ·

1 Parent(s): 1247004

adds flash attention

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ try:
         "openai/gpt-oss-20b",
         torch_dtype="auto",
         device_map="auto",
     )
     tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")

         "openai/gpt-oss-20b",
         torch_dtype="auto",
         device_map="auto",
+        attn_implementation="kernel-community/vllm-flash-attention3"
     )
     tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")