metadata

license: mit
base_model: openai-community/gpt2
tags:
  - trl
  - dpo
  - generated_from_trainer
model-index:
  - name: mistral_test
    results: []

mistral_test

This model is a fine-tuned version of openai-community/gpt2 on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
10	nan	nan	nan	nan	nan	nan	nan	nan
20	nan	nan	nan	nan	nan	nan	nan	nan
30	nan	nan	nan	nan	nan	nan	nan	nan
40	nan	nan	nan	nan	nan	nan	nan	nan
50	nan	nan	nan	nan	nan	nan	nan	nan

Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
10	nan	nan	nan	nan	nan	nan	nan	nan
20	nan	nan	nan	nan	nan	nan	nan	nan
30	nan	nan	nan	nan	nan	nan	nan	nan
40	nan	nan	nan	nan	nan	nan	nan	nan
50	nan	nan	nan	nan	nan	nan	nan	nan

Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
10	nan	nan	nan	nan	nan	nan	nan	nan
20	nan	nan	nan	nan	nan	nan	nan	nan
30	nan	nan	nan	nan	nan	nan	nan	nan
40	nan	nan	nan	nan	nan	nan	nan	nan
50	nan	nan	nan	nan	nan	nan	nan	nan

Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
10	nan	nan	nan	nan	nan	nan	nan	nan
20	nan	nan	nan	nan	nan	nan	nan	nan
30	nan	nan	nan	nan	nan	nan	nan	nan
40	nan	nan	nan	nan	nan	nan	nan	nan
50	nan	nan	nan	nan	nan	nan	nan	nan