RLHFlow

university

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Collections 8

models 19

datasets 63

RLHFlow/DS-and-Mistral-PRM-Data

Viewer • Updated 12 days ago • 526k • 24

RLHFlow/Deepseek-MATH500-Test

Viewer • Updated 12 days ago • 500 • 78

RLHFlow/Mistral-MATH500-Test

Viewer • Updated 12 days ago • 500 • 123

RLHFlow/Deepseek-ORM-Data

Viewer • Updated 12 days ago • 253k • 26

RLHFlow/Deepseek-PRM-Data

Viewer • Updated 12 days ago • 253k • 29

RLHFlow/Mistral-ORM-Data

Viewer • Updated 12 days ago • 273k • 30

RLHFlow/Mistral-PRM-Data

Viewer • Updated 12 days ago • 273k • 92 • 5

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-ORM

Viewer • Updated 14 days ago • 500 • 14

RLHFlow/Mistral-GSM8K-Test-Result-of-Mistral-ORM

Viewer • Updated 14 days ago • 1.32k • 13

RLHFlow/DS-MATH500-Test-Result-of-Mistral-ORM

Viewer • Updated 14 days ago • 500 • 14

RLHFlow

AI & ML interests

Collections 8

RLHFlow/Mistral-PRM-Data

RLHFlow/Mistral-GSM8K-Test

RLHFlow/Mistral-MATH500-Test

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

RLHFlow/UltraFeedback-preference-standard

RLHFlow/Helpsteer-preference-standard

RLHFlow/HH-RLHF-Helpful-standard

RLHFlow/Orca-distibalel-standard

models 19

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

RLHFlow/Llama3-v2-iterative-DPO-iter3

RLHFlow/Llama3-v2-iterative-DPO-iter2

RLHFlow/Llama3-v2-iterative-DPO-iter1

RLHFlow/LLaMA3-SFT-v2

RLHFlow/Llama3-SFT-v2.0-epoch1

RLHFlow/Llama3-SFT-v2.0-epoch2

datasets 63

RLHFlow/DS-and-Mistral-PRM-Data

RLHFlow/Deepseek-MATH500-Test

RLHFlow/Mistral-MATH500-Test

RLHFlow/Deepseek-ORM-Data

RLHFlow/Deepseek-PRM-Data

RLHFlow/Mistral-ORM-Data

RLHFlow/Mistral-PRM-Data

RLHFlow/Mistral-MATH500-Test-Result-of-Mistral-ORM

RLHFlow/Mistral-GSM8K-Test-Result-of-Mistral-ORM

RLHFlow/DS-MATH500-Test-Result-of-Mistral-ORM

AI & ML interests

Team members 6

Collections 8

models 19 Sort: Recently updated

datasets 63 Sort: Recently updated

models 19

datasets 63