Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,146

Full-text search

Active filters: reinforcement-learning, transformers

pkbiswas/Llama-2-7b-Detoxified-PPO-QLoRa

Reinforcement Learning • Updated May 27, 2024 • 1

baek26/all_6489_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_7795_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_9899_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_8847_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_3790_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_9746_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_3510_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_3420_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

baek26/all_5200_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 3

ruffy369/iris-alien

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-amidar

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-assault

Reinforcement Learning • Updated Jul 25, 2024 • 2

ruffy369/iris-asterix

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-bankheist

Reinforcement Learning • Updated Jul 25, 2024 • 2

ruffy369/battlezone

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-boxing

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-choppercommand

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-crazyclimber

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-demonattack

Reinforcement Learning • Updated Jul 25, 2024 • 2

ruffy369/iris-freeway

Reinforcement Learning • Updated Jul 25, 2024 • 2

ruffy369/iris-frostbite

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-gopher

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-hero

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-jamesbond

Reinforcement Learning • Updated Jul 25, 2024 • 2

ruffy369/iris-kangaroo

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-krull

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-kungfumaster

Reinforcement Learning • Updated Jul 25, 2024 • 1

ruffy369/iris-mspacman

Reinforcement Learning • Updated Jul 25, 2024 • 3

ruffy369/iris-pong

Reinforcement Learning • Updated Jul 25, 2024 • 1