|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 0.6666666666666666, |
|
"eval_steps": 10, |
|
"global_step": 40, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 0.0, |
|
"learning_rate": 0, |
|
"loss": 0.6115, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 0.0, |
|
"learning_rate": 0, |
|
"loss": 0.3864, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 0.0, |
|
"learning_rate": 0, |
|
"loss": 0.6927, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 19.340276501798407, |
|
"learning_rate": 0.0, |
|
"loss": 0.2759, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 23.635250390786137, |
|
"learning_rate": 4.30676558073393e-07, |
|
"loss": 0.5341, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 18.32023170957666, |
|
"learning_rate": 6.826061944859853e-07, |
|
"loss": 0.3237, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 22.992808668979116, |
|
"learning_rate": 8.61353116146786e-07, |
|
"loss": 0.5046, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 22.992808668979116, |
|
"learning_rate": 8.61353116146786e-07, |
|
"loss": 0.6481, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 78.06457663370756, |
|
"learning_rate": 1e-06, |
|
"loss": 0.8268, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 21.040225059552967, |
|
"learning_rate": 1e-06, |
|
"loss": 0.6063, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"eval_loss": 0.4745715260505676, |
|
"eval_runtime": 82.5774, |
|
"eval_samples_per_second": 0.363, |
|
"eval_steps_per_second": 0.182, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 18.275514090804755, |
|
"learning_rate": 1e-06, |
|
"loss": 0.362, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 21.939783395899433, |
|
"learning_rate": 1e-06, |
|
"loss": 0.7011, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 13.538998823241776, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3093, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 15.066863508260852, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3859, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 17.511916980391526, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2982, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 24.51472248776934, |
|
"learning_rate": 1e-06, |
|
"loss": 0.4318, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 17.70508835924277, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2826, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 24.09449475989017, |
|
"learning_rate": 1e-06, |
|
"loss": 0.9326, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 16.93121063464416, |
|
"learning_rate": 1e-06, |
|
"loss": 0.7623, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 16.47139132489221, |
|
"learning_rate": 1e-06, |
|
"loss": 0.4869, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"eval_loss": 0.39905643463134766, |
|
"eval_runtime": 86.161, |
|
"eval_samples_per_second": 0.348, |
|
"eval_steps_per_second": 0.174, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 13.353254948686084, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3214, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 15.60815644877678, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3531, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 10.67603065821911, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2338, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 14.185334834442026, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2733, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 41.2581742019271, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2923, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 31.043373528646374, |
|
"learning_rate": 1e-06, |
|
"loss": 0.5414, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 23.723534545016552, |
|
"learning_rate": 1e-06, |
|
"loss": 0.5977, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 10.5258615897717, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2245, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.48333333333333334, |
|
"grad_norm": 14.978248083451351, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2496, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 13.904234733715963, |
|
"learning_rate": 1e-06, |
|
"loss": 0.2581, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"eval_loss": 0.36848002672195435, |
|
"eval_runtime": 83.1811, |
|
"eval_samples_per_second": 0.361, |
|
"eval_steps_per_second": 0.18, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.5166666666666667, |
|
"grad_norm": 7.805045027080617, |
|
"learning_rate": 1e-06, |
|
"loss": 0.1419, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 16.171216396613268, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3105, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 19.385896633409814, |
|
"learning_rate": 1e-06, |
|
"loss": 0.4161, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 16.85224250337557, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3111, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 20.96740518228531, |
|
"learning_rate": 1e-06, |
|
"loss": 0.5486, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 8.543503676953911, |
|
"learning_rate": 1e-06, |
|
"loss": 0.1977, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.6166666666666667, |
|
"grad_norm": 12.313382964255357, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3224, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 18.142221411776074, |
|
"learning_rate": 1e-06, |
|
"loss": 0.3998, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 16.746965275752668, |
|
"learning_rate": 1e-06, |
|
"loss": 0.5016, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 13.820322988796189, |
|
"learning_rate": 1e-06, |
|
"loss": 0.321, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"eval_loss": 0.36720359325408936, |
|
"eval_runtime": 83.5123, |
|
"eval_samples_per_second": 0.359, |
|
"eval_steps_per_second": 0.18, |
|
"step": 40 |
|
} |
|
], |
|
"logging_steps": 1.0, |
|
"max_steps": 500, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 9, |
|
"save_steps": 10, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 353980428288.0, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|