Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,148

Full-text search

Active filters: reinforcement-learning, transformers

ValueFX9507/Tifa-Deepsex-14b-CoT-Q8

Reinforcement Learning • 15B • Updated Feb 13 • 23.7k • 177

mradermacher/prem-1B-grpo-GGUF

Reinforcement Learning • 1B • Updated Feb 5 • 60

mradermacher/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • 15B • Updated 26 days ago • 881 • 20

mradermacher/Tifa-Deepsex-14b-CoT-i1-GGUF

Reinforcement Learning • 15B • Updated Feb 13 • 264 • 13

tensorblock/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • 15B • Updated Jul 9 • 387 • 6

Poro7/Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf

Reinforcement Learning • 15B • Updated Feb 12 • 39 • 4

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • 8B • Updated Mar 26 • 9.6k • 221

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q8

Reinforcement Learning • 8B • Updated Mar 28 • 2.18k • 185

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-F16

Reinforcement Learning • 8B • Updated Mar 25 • 4.64k • 86

tensorblock/Tifa-DeepsexV2-7b-MGRPO-GGUF-F16-GGUF

Reinforcement Learning • 8B • Updated Jul 9 • 194 • 1

xwm/SciWorld-MPO

Reinforcement Learning • 8B • Updated Mar 9 • 4 • 2

DARJYO/persadian_14B-GRPO

Reinforcement Learning • Updated Feb 18 • 4

Open-Reasoner-Zero/Open-Reasoner-Zero-7B

Reinforcement Learning • 8B • Updated Apr 7 • 1.15k • 33

Open-Reasoner-Zero/Open-Reasoner-Zero-32B

Reinforcement Learning • 33B • Updated Apr 7 • 1.56k • 31

Heaplax/ARMAP-RM-LoRA

Reinforcement Learning • Updated Feb 26

persadian/CropSeek-LLM

Reinforcement Learning • Updated Mar 7 • 125 • 2

Jennny/llama3_samsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26 • 6

Jennny/llama3_dialogsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26 • 4

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_test

Reinforcement Learning • Updated Feb 28 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_2nd

Reinforcement Learning • Updated Feb 28 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav

Reinforcement Learning • 5B • Updated Mar 1 • 3

Jennny/llama3_samsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 2 • 4

Jennny/llama3_dialogsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 1 • 4

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • 5B • Updated Mar 1 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2 • 3

btaskel/Tifa-DeepsexV2-7b-MGRPO-safetensors

Reinforcement Learning • 8B • Updated Mar 3 • 12 • 1

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-GGUF

Reinforcement Learning • 8B • Updated Mar 2 • 182 • 1

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-i1-GGUF

Reinforcement Learning • 8B • Updated Mar 2 • 426

tensorblock/DeepSeek-R1-Medical-COT-GGUF

Reinforcement Learning • 8B • Updated Jul 9 • 121 • 2

DARJYO/Croptimize

Reinforcement Learning • Updated Jun 22