Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,148

Full-text search

Active filters: reinforcement-learning, transformers

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6 • 14

arianaazarbal/hacker_test_seeking_prompt_ppo

Reinforcement Learning • Updated Jul 6 • 4

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6 • 19

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning • 1B • Updated Jul 6 • 17

mradermacher/sft_14B-GGUF

Reinforcement Learning • 15B • Updated Jul 26 • 48 • 1

mradermacher/sft_0.5B-GGUF

Reinforcement Learning • 0.5B • Updated about 1 month ago • 54

mradermacher/sft_1.5B-GGUF

Reinforcement Learning • 2B • Updated about 1 month ago • 254 • 1

mradermacher/sft_3B-GGUF

Reinforcement Learning • 3B • Updated about 1 month ago • 55

mradermacher/Aryabhata-1.0-GGUF

Reinforcement Learning • 8B • Updated 30 days ago • 272 • 1

mradermacher/Aryabhata-1.0-i1-GGUF

Reinforcement Learning • 8B • Updated about 1 month ago • 407

mradermacher/ReForm-SFT-0.5B-GGUF

Reinforcement Learning • 0.5B • Updated about 1 month ago • 56

mradermacher/ReForm-SFT-3B-GGUF

Reinforcement Learning • 3B • Updated about 1 month ago • 99

mradermacher/ReForm-SFT-3B-i1-GGUF

Reinforcement Learning • 3B • Updated about 1 month ago • 156

mradermacher/ReForm-SFT-0.5B-i1-GGUF

Reinforcement Learning • 0.5B • Updated about 1 month ago • 115

mradermacher/ReForm-14B-RL-entropy-GGUF

Reinforcement Learning • 15B • Updated about 1 month ago • 63

mradermacher/ReForm-SFT-1.5B-GGUF

Reinforcement Learning • 2B • Updated about 1 month ago • 63

mradermacher/ReForm-SFT-1.5B-i1-GGUF

Reinforcement Learning • 2B • Updated about 1 month ago • 103

tensorblock/Nellyw888_VeriReason-codeLlama-7b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • 7B • Updated 27 days ago • 144

mradermacher/EDGE-GRPO-Qwen-7B-GGUF

Reinforcement Learning • 8B • Updated 27 days ago • 415

mradermacher/EDGE-GRPO-Qwen-1.5B-GGUF

Reinforcement Learning • 2B • Updated 27 days ago • 174

mradermacher/EDGE-GRPO-Qwen-7B-i1-GGUF

Reinforcement Learning • 8B • Updated 27 days ago • 372

mradermacher/Qwen3-14B-ARPO-DeepSearch-GGUF

Reinforcement Learning • 15B • Updated 14 days ago • 3.07k • 1

mradermacher/Qwen3-14B-ARPO-DeepSearch-i1-GGUF

Reinforcement Learning • 15B • Updated 14 days ago • 2.94k • 1

mradermacher/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct-GGUF

Reinforcement Learning • 0.6B • Updated 26 days ago • 188

mradermacher/SLM-SQL-0.5B-GGUF

Reinforcement Learning • 0.6B • Updated 26 days ago • 177

mradermacher/SLM-SQL-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 26 days ago • 180

mradermacher/SLM-SQL-Base-1.5B-GGUF

Reinforcement Learning • 2B • Updated 26 days ago • 386

mradermacher/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct-GGUF

Reinforcement Learning • 2B • Updated 26 days ago • 445

mradermacher/SLM-SQL-Base-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 26 days ago • 179

mradermacher/arc-teacher-8b-GGUF

Reinforcement Learning • 8B • Updated 24 days ago • 249