verl GRPO trained model at step 250

2c79da9 verified 3 days ago

138 Bytes

metadata

base_model: thejaminator/qwen-hook-layer-9-step-1000-merged
library_name: peft
tags:
  - lora
  - peft
pipeline_tag: text-generation