Edit Models filters

Apps

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

67,055

Full-text search

Active filters: reinforcement-learning

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated 21 days ago • 65.9k • 57

PRIME-RL/P1-235B-A22B

Text Generation • 235B • Updated 26 days ago • 50 • 7

PRIME-RL/P1-30B-A3B

Text Generation • 31B • Updated 26 days ago • 96 • 6

ValueFX9507/Tifa-DeepsexV3-14b-GGUF-Q6

Reinforcement Learning • 15B • Updated Jul 1 • 2.16k • 36

ABaroian/Apertus-8B-RLVR-GSM

Reinforcement Learning • Updated about 1 month ago • 2

mradermacher/P1-30B-A3B-GGUF

Reinforcement Learning • 31B • Updated 25 days ago • 460 • 1

JERRYPAN617/HH-BTRewardModel-roberta

Reinforcement Learning • 0.1B • Updated 6 days ago • 17 • 1

liruos/PPO-LunarLander-v3

Reinforcement Learning • Updated 5 days ago • 9 • 1

ahczhg/qwen3-0.6b-rlhf-cot

Text Generation • Updated 2 days ago • 1

AubreeL/chess-bot

Reinforcement Learning • Updated 3 days ago • 1

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • 15B • Updated Feb 13 • 492 • 218

ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4

Reinforcement Learning • 15B • Updated Feb 13 • 2.91k • 816

ValueFX9507/Tifa-Deepsex-14b-CoT-Q8

Reinforcement Learning • 15B • Updated Feb 13 • 600 • 180

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 2 • 10

ThomasSimonini/demo-hf-CartPole-v1

Reinforcement Learning • Updated May 3, 2023 • 20

ThomasSimonini/mlagents-snowballfight-1vs1-ppo

Reinforcement Learning • Updated Nov 22, 2021

ThomasSimonini/ppo-AntBulletEnv-v0

Reinforcement Learning • Updated Apr 7, 2022 • 14 • 1

ThomasSimonini/ppo-BreakoutNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 24 • 3

ThomasSimonini/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 28, 2023 • 46 • 14

ThomasSimonini/ppo-PongNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 23 • 1

ThomasSimonini/ppo-QbertNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 13

ThomasSimonini/ppo-SeaquestNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 15

ThomasSimonini/ppo-SpaceInvadersNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 71 • 3

ThomasSimonini/ppo-Walker2DBulletEnv-v0

Reinforcement Learning • Updated Jul 15, 2022 • 16

ThomasSimonini/stable-baselines3-ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 7, 2022

carlosaguayo/Simonini-ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 22, 2022 • 8 • 1

edbeeching/decision_transformer_atari

Reinforcement Learning • Updated Feb 21, 2022 • 4

mrm8488/a2c-Pong-v0

Reinforcement Learning • Updated Feb 11, 2022 • 8 • 1

mrm8488/a2c-PongNoFrameskip-v0

Reinforcement Learning • Updated Feb 12, 2022 • 6

osanseviero/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 5, 2022 • 14 • 1