Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

63,167

Full-text search

Active filters: reinforcement-learning

PhysicsWallahAI/Aryabhata-1.0

Text Generation • 8B • Updated 6 days ago • 1.3k • 94

TianheWu/VisualQuality-R1-7B

Reinforcement Learning • 8B • Updated May 25 • 379 • 3

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jul 5 • 9 • 2

Arc-Intelligence/arc-teacher-8b

Text Generation • 8B • Updated 6 days ago • 33 • 2

araffin/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 11, 2022 • 10 • 20

sb3/ppo-MiniGrid-Unlock-v0

Reinforcement Learning • Updated Mar 31, 2023 • 6 • 2

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • 8B • Updated Mar 26 • 1.09k • 219

persadian/CropSeek-LLM

Reinforcement Learning • Updated Mar 7 • 67 • 2

mradermacher/CscSQL-Grpo-XiYanSQL-QwenCoder-7B-2502-GGUF

Reinforcement Learning • 8B • Updated 27 days ago • 3.3k • 1

mradermacher/GCIRS-Reasoning-1.5B-R1-GGUF

Reinforcement Learning • 2B • Updated 27 days ago • 2.28k • 1

Adilbai/Pyramids-RL-agent-ppo

Reinforcement Learning • Updated Jun 11 • 10 • 2

THU-KEG/LongWriter-Zero-32B

Text Generation • 33B • Updated Jul 3 • 991 • • 106

IntelliGrow/poca-SoccerTwos

Reinforcement Learning • Updated Jun 25 • 29 • 2

ValueFX9507/Tifa-DeepsexV3-14b-GGUF-Q6

Reinforcement Learning • 15B • Updated Jul 1 • 4.86k • 21

daniel3303/QwenStoryteller2

Image-to-Text • 8B • Updated Jul 1 • 13 • 2

zhang0212/ppo-Huggy

Reinforcement Learning • Updated 9 days ago • 71 • 1

ArthurSchwan/CartPole-v1

Reinforcement Learning • Updated 8 days ago • 1

ArthurSchwan/ppo-Pyramids

Reinforcement Learning • Updated 7 days ago • 8 • 1

ArthurSchwan/Reinforce-PixelCopter2025

Reinforcement Learning • Updated 7 days ago • 1

HaseebAsif/q-Taxi-v3

Reinforcement Learning • Updated 7 days ago • 1

DianaMLZ/Reinforce-CartPole

Reinforcement Learning • Updated 7 days ago • 1

ArthurSchwan/Reinforce-PixelCopter

Reinforcement Learning • Updated 7 days ago • 1

ArthurSchwan/a2c-PandaReachDense-v3

Reinforcement Learning • Updated 6 days ago • 8 • 1

ArthurSchwan/ML-Agents-SoccerTwos

Reinforcement Learning • Updated 6 days ago • 6 • 1

ArthurSchwan/ppo-LunarLander-v2-unit8-part1

Reinforcement Learning • Updated 6 days ago • 1

ChessAI-Community/NeoChess-Community

Reinforcement Learning • Updated 2 days ago • 47 • 1

LizardAPN/ppo-LunarLander-v2

Reinforcement Learning • Updated about 2 hours ago • 1

ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4

Reinforcement Learning • 15B • Updated Feb 13 • 2.3k • 808

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • 15B • Updated Feb 13 • 1.59k • 217

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 7 • 10