RefDPO - a yale-nlp Collection

yale-nlp 's Collections

updated Jul 19

Model and data collection for our work "Understanding Reference Policies in Direct Preference Optimization" (https://arxiv.org/abs/2407.13709)

Upvote

yale-nlp/RefDPO

Viewer • Updated Jul 18 • 312k • 122

Note Datasets
yale-nlp/tulu2-7b-dpo-beta-0.1

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-beta-0.02

Text Generation • Updated Jul 18 • 7
yale-nlp/tulu2-7b-dpo-beta-0.005

Text Generation • Updated Jul 18 • 7
yale-nlp/mistral-7b-dpo-beta-0.1

Text Generation • Updated Jul 18 • 9
yale-nlp/mistral-7b-dpo-beta-0.05

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-beta-0.02

Text Generation • Updated Jul 18 • 3
yale-nlp/mistral-7b-dpo-beta-0.01

Text Generation • Updated Jul 18 • 3
yale-nlp/mistral-7b-dpo-beta-0.005

Text Generation • Updated Jul 18 • 13
yale-nlp/mistral-likelihood

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-probability

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-10.0

Text Generation • Updated Jul 18 • 3
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-1.0

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.1

Text Generation • Updated Jul 18 • 3
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.01

Text Generation • Updated Jul 18 • 8
yale-nlp/mistral-7b-dpo-mistralv2-7b-beta-0.005

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-llama3-70b-beta-10.0

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-llama3-70b-beta-1.0

Text Generation • Updated Jul 18 • 4
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.1

Text Generation • Updated Jul 18 • 7
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.01

Text Generation • Updated Jul 18 • 5
yale-nlp/mistral-7b-dpo-llama3-70b-beta-0.005

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-10.0

Text Generation • Updated Jul 18 • 3
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-1.0

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-0.1

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-mistralv2-7b-beta-0.01

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-10.0

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-1.0

Text Generation • Updated Jul 18 • 3
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.1

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.01

Text Generation • Updated Jul 18 • 5
yale-nlp/tulu2-7b-dpo-llama3-70b-beta-0.005

Text Generation • Updated Jul 18 • 3
yale-nlp/tulu2-7b-dpo-beta-0.05

Text Generation • Updated Jul 19 • 7
yale-nlp/tulu2-7b-dpo-beta-0.01

Text Generation • Updated Jul 19 • 5

Upvote

Collection guide
Browse collections