Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,150

Full-text search

Active filters: reinforcement-learning, transformers

persadian/Croptimize

Reinforcement Learning • Updated Apr 28

KYUNGYONG/Tifa-DeepsexV2-7b-MGRPO-safetensors-4bit

Reinforcement Learning • 1B • Updated Mar 8 • 29

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11 • 5

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11 • 5

koolkarni-Atharva10/Nano_R1

Reinforcement Learning • Updated Mar 17

abaryan/GRPO_GSM8K_Qwen2.5-1.5B_NoQuantisation

Reinforcement Learning • 2B • Updated Mar 18 • 8

Open-Reasoner-Zero/Open-Reasoner-Zero-0.5B

Reinforcement Learning • 0.5B • Updated Apr 7 • 170

Open-Reasoner-Zero/Open-Reasoner-Zero-1.5B

Reinforcement Learning • 2B • Updated Apr 6 • 72

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-0.5B

Reinforcement Learning • 0.5B • Updated Apr 7 • 3

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-1.5B

Reinforcement Learning • 2B • Updated Apr 6 • 4 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-7B

Reinforcement Learning • 7B • Updated Apr 7 • 8 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-32B

Reinforcement Learning • 32B • Updated Apr 7 • 5 • 5

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 3

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 2

mradermacher/R-PRM-7B-DPO-GGUF

Reinforcement Learning • 8B • Updated Jul 11 • 124

mradermacher/R-PRM-7B-DPO-i1-GGUF

Reinforcement Learning • 8B • Updated Jul 11 • 163

mradermacher/beaver-7b-v2.0-GGUF

Reinforcement Learning • 7B • Updated Jul 11 • 160

mradermacher/beaver-7b-v3.0-GGUF

Reinforcement Learning • 7B • Updated Jul 11 • 57 • 1

NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 29 • 2

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 26 • 5

NousResearch/DeepHermes-AscensionMaze-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 30 • 6

mradermacher/beaver-7b-v1.0-GGUF

Reinforcement Learning • 7B • Updated Jul 11 • 36

NousResearch/DeepHermes-ToolCalling-Specialist-Atropos

Reinforcement Learning • 8B • Updated Apr 28 • 580 • 14

Downtown-Case/Tifa-Deepsex-14b-CoT-Chat-HF

Reinforcement Learning • 15B • Updated Apr 13 • 6 • 2

Downtown-Case/Tifa-Deepsex-14b-CoT-Crazy-HF

Reinforcement Learning • 15B • Updated Apr 13 • 7 • 1

malifnasrulloh/PPO-IndoNanoT5-base-Liputan6-Canonical

Reinforcement Learning • 0.2B • Updated Apr 15 • 2

ikerm11/gemma1b_humanizer_lora

Reinforcement Learning • Updated Apr 27 • 3

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos-GGUF

Reinforcement Learning • 8B • Updated May 5 • 54 • 2

NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos-GGUF

Reinforcement Learning • 8B • Updated May 5 • 36 • 3

ajagota71/pythia-70m-detox-test

Reinforcement Learning • 0.1B • Updated May 4 • 8