PM-pair - a RLHFlow Collection

RLHFlow 's Collections

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

PM-pair

updated May 10

This is a collection of materials for training pairwise preference model.

RLHFlow/pair-preference-dataset-mix1

Viewer • Updated May 6 • 548k • 49 • 3
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated 22 days ago • 2k • 36
RLHFlow/pair_preference_model_dataset

Viewer • Updated Apr 20 • 699k • 42 • 4