Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

810

Full-text search

Active filters: ppo, trl

bnurpek/gpt2-256t-nr1wr-pos-5

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 2

bnurpek/gpt2-256t-nr1wr-pos-7

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-10

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 2

bnurpek/gpt2-256t-nr1wr-pos-15

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-20

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-30

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/new-mgpt-pos-0

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-1

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-2

Reinforcement Learning • Updated Jan 8, 2024

AdoubleLen/trl

Reinforcement Learning • Updated Jan 11, 2024

asudeekiz/gpt2-256t-human_reward-pos-20

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 6

asudeekiz/gpt2-256t-human_reward-pos-25

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 8

taku-yoshioka/rlhf_llm_custom_rm

Reinforcement Learning • Updated Mar 3, 2024 • 1

asudeekiz/gpt2-256t-human_reward-neg-10

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 6

asudeekiz/gpt2-256t-human_reward-neg-15

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 6

asudeekiz/gpt2-256t-human_reward-neg-20

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 6

asudeekiz/gpt2-256t-human_reward-neg-25

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 6

taku-yoshioka/rlhf-line-marcja

Reinforcement Learning • Updated Jan 28, 2024 • 1

yuchiz/models-moved

Reinforcement Learning • Updated Mar 6, 2024 • 5

DarshanDeshpande/gemma_2b_oasst1_ppo_model

Reinforcement Learning • Updated Mar 14, 2024 • 11

MuntasirHossain/flan-t5-large-samsum-qlora-ppo

Reinforcement Learning • Updated Mar 26, 2024

deepaknh/falcon7B_rlhf_v1

Reinforcement Learning • Updated Mar 29, 2024 • 3

baek26/billsum_2052_bart-base

Reinforcement Learning • 0.1B • Updated Apr 1, 2024 • 3

baek26/wiki_asp-animal_8989_bart-base

Reinforcement Learning • 0.1B • Updated Apr 2, 2024 • 2

baek26/wiki_asp-animal_9617_bart-base

Reinforcement Learning • 0.1B • Updated Apr 2, 2024 • 2

baek26/wiki_asp-educational_institution_6506_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 3

baek26/wiki_asp-educational_institution_3034_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 3

baek26/wiki_asp-animal_9009_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 3

baek26/wiki_asp-software_9089_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 4

baek26/wiki_asp-written_work_9465_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 4