Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,103

Full-text search

Active filters: reinforcement-learning, transformers

SummerSigh/T5-Base-Rule-Of-Thumb-RM2

Reinforcement Learning • 0.2B • Updated Mar 21, 2023 • 5

dshin/flan-t5-ppo-user-h-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 2

dshin/flan-t5-ppo-user-e-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

andylolu24/ppo-LunarLander-v2

Reinforcement Learning • Updated Mar 18, 2023 • 1

Absie/ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 23, 2023 • 1

anna-t/PPO-LunarLander-v2

Reinforcement Learning • Updated Apr 7, 2023 • 1

artbreguez/ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 1, 2023 • 1

Niraya666/ppo-LunarLander-v2

Reinforcement Learning • Updated Mar 27, 2023 • 1

Bearnardd/gpt2-imdb

Reinforcement Learning • Updated Apr 3, 2023 • 15

Bearnardd/test_bearnard

Reinforcement Learning • Updated Apr 5, 2023 • 16

Bearnardd/test_beard

Reinforcement Learning • Updated Apr 4, 2023 • 15

vincentmin/opt-125m-eli5-rl-finetune-128-8-8-1.4e-5_ada

Reinforcement Learning • Updated Apr 10, 2023

egarciamartin/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 23, 2023

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog-testing-upload

Reinforcement Learning • Updated Apr 12, 2023 • 3

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

dshin/flan-t5-ppo-user-f-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

dshin/flan-t5-ppo-user-h-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

dshin/flan-t5-ppo-user-e-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

mojemai/ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 30, 2023 • 1

Adi0010/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 25, 2023 • 4

Tiru8055/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 1, 2023 • 1

ameyachitnis/ppo-LunarLander-v2

Reinforcement Learning • Updated May 27, 2023 • 1

YoavWigelman/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 5, 2023 • 1

wengnews/tuning_llama_rl_checkpointsstep_9

Reinforcement Learning • Updated May 11, 2023

eurus7/working

Reinforcement Learning • Updated May 12, 2023

eurus7/ppo_trainer

Reinforcement Learning • Updated May 12, 2023