Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,148

Full-text search

Active filters: reinforcement-learning, transformers

jvelja/vllm-gemma2b-llmOversight-0.5-noDropSus_17

Reinforcement Learning • Updated Sep 10, 2024 • 2

yuansui/llama-160m-PPO-tuned

Reinforcement Learning • Updated Sep 11, 2024 • 3

jvelja/vllm-gemma2b-stringMatcher-newDataset_0

Reinforcement Learning • Updated Sep 10, 2024 • 3

jvelja/vllm-gemma2b-stringMatcher-newDataset_1

Reinforcement Learning • Updated Sep 10, 2024 • 3

jvelja/vllm-gemma2b-stringMatcher-newDataset_2

Reinforcement Learning • Updated Sep 10, 2024 • 2

jvelja/vllm-gemma2b-stringMatcher-newDataset_3

Reinforcement Learning • Updated Sep 10, 2024 • 4

jvelja/vllm-gemma2b-stringMatcher-newDataset_4

Reinforcement Learning • Updated Sep 11, 2024 • 2

hug-me-please/RL_CAMEL

Reinforcement Learning • Updated Sep 19, 2024 • 1

sjkwon/sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 22, 2024 • 1

sjkwon/sft-mdo-diverse-train-nllb-200-600M-step200

Reinforcement Learning • 0.6B • Updated Oct 15, 2024 • 1

sjkwon/4942_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 25, 2024 • 1

sjkwon/3999_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 25, 2024 • 1

sjkwon/7826_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 30, 2024 • 1

sjkwon/9260_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 30, 2024 • 2

stvnl/msc_ppo_en

Reinforcement Learning • Updated Oct 31, 2024 • 3

stvnl/msc_ppo_zh

Reinforcement Learning • Updated Oct 31, 2024 • 5

sjkwon/6750_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 31, 2024 • 1

sjkwon/5e-6_6528_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024 • 1

sjkwon/2e-5_2184_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024 • 1

sjkwon/1e-5_2000_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024 • 1

gljj/llama-2-Singapore-fake-news-RL-PPO

Reinforcement Learning • Updated Nov 23, 2024 • 2

nteku1/firstppomodel

Reinforcement Learning • Updated Nov 19, 2024 • 2

nteku1/final_ppomodel

Reinforcement Learning • Updated Nov 19, 2024 • 2

Setpember/Jon_GPT2L_PPO_epi_point1

Reinforcement Learning • Updated Nov 22, 2024 • 2

Setpember/Jon_GPT2L_PPO_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 2

Setpember/Jon_GPT2L_PPO_epi_1

Reinforcement Learning • Updated Nov 20, 2024 • 2

Setpember/Jon_GPT2L_PPO_epi_2

Reinforcement Learning • Updated Nov 22, 2024 • 2

Setpember/Jon_ppo_stage1_epi_2

Reinforcement Learning • Updated Nov 20, 2024 • 2

Setpember/Jon_ppo_stage2_epi_2

Reinforcement Learning • Updated Nov 20, 2024 • 3

Setpember/Jon_ppo_stage1_epi_1

Reinforcement Learning • Updated Nov 20, 2024 • 2