Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

119

Full-text search

Active filters: RL

internlm/POLAR-7B-Base

Text Classification • Updated 24 days ago • 33 • 4

Efficient-Large-Model/LongVILA-R1-7B

Updated 9 days ago • 966 • 9

stanfordnlp/SteamSHP-flan-t5-xl

Updated Oct 10, 2023 • 51 • 43

stanfordnlp/SteamSHP-flan-t5-large

Updated Oct 10, 2023 • 1.05k • 33

SultanR/SmolTulu-1.7b-Reinforced

Text Generation • 2B • Updated Dec 17, 2024 • 253 • 5

mradermacher/SmolTulu-1.7b-Reinforced-GGUF

2B • Updated Dec 18, 2024 • 84

Daemontatox/Llama3.3-70B-CogniLink

Text Generation • 71B • Updated Jun 21 • 116 • • 3

mradermacher/Llama3.3-70B-CogniLink-GGUF

Text Generation • 71B • Updated Jun 22 • 88

mradermacher/Llama3.3-70B-CogniLink-i1-GGUF

Text Generation • 71B • Updated Jun 22 • 474

JHuel/Mistral-Nemo-Instruct-2407_DPO_qlora

Reinforcement Learning • Updated Jan 22

JHuel/Mistral-Nemo-Instruct-2407_ORPO

Text Generation • Updated Jan 22

Ihor/Text2Graph-R1-Qwen2.5-0.5b

Text Generation • 0.5B • Updated Jan 30 • 2.34k • 21

tecosys/Nutaan-RL1

Reinforcement Learning • Updated Feb 7 • 217

mradermacher/Text2Graph-R1-Qwen2.5-0.5b-GGUF

0.5B • Updated Feb 9 • 118

mradermacher/Text2Graph-R1-Qwen2.5-0.5b-i1-GGUF

0.5B • Updated Feb 9 • 215

mradermacher/QuadConnect2.5-0.5B-v0.0.3b-GGUF

0.5B • Updated Feb 22 • 72

Daemontatox/Zireal-0

Text Generation • 684B • Updated Jul 1 • 12 • 1

mradermacher/QuadConnect2.5-0.5B-v0.0.8b-GGUF

0.5B • Updated 8 days ago • 108

Lyte/QuadConnect2.5-0.5B-v0.0.9b

Text Generation • 0.5B • Updated Feb 27 • 24

mradermacher/QuadConnect2.5-0.5B-v0.0.9b-GGUF

0.5B • Updated 8 days ago • 93

Lyte/QuadConnect2.5-1.5B-v0.1.0b

Text Generation • 2B • Updated Feb 28 • 10 • 1

mradermacher/QuadConnect2.5-1.5B-v0.1.0b-GGUF

2B • Updated Mar 1 • 41 • 1

mradermacher/Zireal-0-GGUF

Updated 8 days ago • 1

mradermacher/Magellanic-Qwen-25B-R999-GGUF

25B • Updated Mar 5 • 86 • 1

mradermacher/Magellanic-Qwen-25B-R999-i1-GGUF

25B • Updated Jul 4 • 218 • 1

VaidikML0508/Shark-Tank-Offer-Evaluator-llama3.2-3B-Instruct-SFT-DPO-4bits-V1

Text Generation • 3B • Updated Apr 22 • 4

TEEN-D/squiral_maze

Reinforcement Learning • Updated Mar 30

TEEN-D/Tabular_RL_For_Multi_Env

Reinforcement Learning • Updated Mar 30

NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 6 • 2

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29 • 9 • 5