Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,146

Full-text search

Active filters: reinforcement-learning, transformers

bnurpek/gpt2-256t-nr1wr-pos-3

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 6

bnurpek/gpt2-256t-nr1wr-pos-5

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 7

bnurpek/gpt2-256t-nr1wr-pos-7

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 9

bnurpek/gpt2-256t-nr1wr-pos-10

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 6

bnurpek/gpt2-256t-nr1wr-pos-15

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 7

bnurpek/gpt2-256t-nr1wr-pos-20

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 7

bnurpek/gpt2-256t-nr1wr-pos-30

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 8

bnurpek/new-mgpt-pos-0

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-1

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-2

Reinforcement Learning • Updated Jan 8, 2024

AdoubleLen/trl

Reinforcement Learning • Updated Jan 11, 2024

jat-project/jat

Reinforcement Learning • 0.2B • Updated Apr 29, 2024 • 105 • 99

Asude/gpt2-256t-human_reward-pos-20

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 8

Asude/gpt2-256t-human_reward-pos-25

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 8

taku-yoshioka/rlhf_llm_custom_rm

Reinforcement Learning • Updated Mar 3, 2024 • 1

Asude/gpt2-256t-human_reward-neg-10

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 10

Asude/gpt2-256t-human_reward-neg-15

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 9

Asude/gpt2-256t-human_reward-neg-20

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 9

Asude/gpt2-256t-human_reward-neg-25

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 7

Amartya77/RLHF_PPOppo_model

Reinforcement Learning • 0.6B • Updated Jan 24, 2024 • 1

taku-yoshioka/rlhf-line-marcja

Reinforcement Learning • Updated Jan 28, 2024 • 1

JiajingChen/c

Reinforcement Learning • Updated Feb 7, 2024 • 1

haihuynh/ppo-LunarLander-v2

Reinforcement Learning • Updated Feb 15, 2024 • 3

JiajingChen/9

Reinforcement Learning • Updated Feb 16, 2024 • 1

gabrielbenabou/Reinforce-CartPole-v1

Reinforcement Learning • Updated Feb 20, 2024 • 1

zhudanhao/RlCourse

Reinforcement Learning • Updated Feb 17, 2024 • 3

yuchiz/lmrl-7b

Reinforcement Learning • Updated Feb 18, 2024

yuchiz/cache

Reinforcement Learning • Updated Feb 20, 2024

VATSAL1729/LUNARLANDERV2

Reinforcement Learning • Updated Feb 25, 2024 • 2

swritchie/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 4, 2024 • 1