Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,147

Full-text search

Active filters: reinforcement-learning, transformers

jvelja/gemma-strongOversight-vllm_2

Reinforcement Learning • Updated Sep 5, 2024 • 2

KoNqUeRoR3891/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 6, 2024 • 3

yuansui/TinyLLama-v0-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-sanity-multivllm_0

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_0

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-dropSus_0

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_1

Reinforcement Learning • Updated Sep 6, 2024 • 2

yuansui/Meta-Llama-3.1-8B-Instruct-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_2

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_3

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_4

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_5

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_6

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_7

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_8

Reinforcement Learning • Updated Sep 7, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_9

Reinforcement Learning • Updated Sep 7, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_10

Reinforcement Learning • Updated Sep 7, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_11

Reinforcement Learning • Updated Sep 7, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_12

Reinforcement Learning • Updated Sep 7, 2024 • 2

jvelja/gemma2b-NodropSus_0

Reinforcement Learning • Updated Sep 8, 2024 • 2

jvelja/gemma2b-NodropSus_1

Reinforcement Learning • Updated Sep 8, 2024 • 2

jvelja/gemma2b-oversight_DropSus_0

Reinforcement Learning • Updated Sep 8, 2024 • 5

jvelja/vllm-gemma2b-deterministic_0

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/vllm-gemma2b_0

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/gemma2b-NodropSus_2

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/vllm-gemma2b_1

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/vllm-gemma2b-deterministic_1

Reinforcement Learning • Updated Sep 9, 2024 • 1

jvelja/vllm-gemma2b_2

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/vllm-gemma2b-deterministic_2

Reinforcement Learning • Updated Sep 9, 2024 • 2

jvelja/vllm-gemma2b_3

Reinforcement Learning • Updated Sep 9, 2024 • 2