{ "best_metric": null, "best_model_checkpoint": null, "epoch": 63.1578947368421, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 2.11, "learning_rate": 0.019333333333333334, "loss": 1.1331, "step": 10 }, { "epoch": 4.21, "learning_rate": 0.018666666666666668, "loss": 0.2373, "step": 20 }, { "epoch": 6.32, "learning_rate": 0.018000000000000002, "loss": 0.1028, "step": 30 }, { "epoch": 8.42, "learning_rate": 0.017333333333333336, "loss": 0.0617, "step": 40 }, { "epoch": 10.53, "learning_rate": 0.016666666666666666, "loss": 0.0309, "step": 50 }, { "epoch": 12.63, "learning_rate": 0.016, "loss": 0.015, "step": 60 }, { "epoch": 14.74, "learning_rate": 0.015333333333333334, "loss": 0.0086, "step": 70 }, { "epoch": 16.84, "learning_rate": 0.014666666666666666, "loss": 0.0048, "step": 80 }, { "epoch": 18.95, "learning_rate": 0.013999999999999999, "loss": 0.0043, "step": 90 }, { "epoch": 21.05, "learning_rate": 0.013333333333333332, "loss": 0.0032, "step": 100 }, { "epoch": 23.16, "learning_rate": 0.012666666666666666, "loss": 0.003, "step": 110 }, { "epoch": 25.26, "learning_rate": 0.012, "loss": 0.0029, "step": 120 }, { "epoch": 27.37, "learning_rate": 0.011333333333333332, "loss": 0.0027, "step": 130 }, { "epoch": 29.47, "learning_rate": 0.010666666666666666, "loss": 0.0024, "step": 140 }, { "epoch": 31.58, "learning_rate": 0.01, "loss": 0.0024, "step": 150 }, { "epoch": 33.68, "learning_rate": 0.009333333333333334, "loss": 0.0022, "step": 160 }, { "epoch": 35.79, "learning_rate": 0.008666666666666668, "loss": 0.002, "step": 170 }, { "epoch": 37.89, "learning_rate": 0.008, "loss": 0.0021, "step": 180 }, { "epoch": 40.0, "learning_rate": 0.007333333333333333, "loss": 0.0018, "step": 190 }, { "epoch": 42.11, "learning_rate": 0.006666666666666666, "loss": 0.0018, "step": 200 }, { "epoch": 44.21, "learning_rate": 0.006, "loss": 0.002, "step": 210 }, { "epoch": 46.32, "learning_rate": 0.005333333333333333, "loss": 0.0019, "step": 220 }, { "epoch": 48.42, "learning_rate": 0.004666666666666667, "loss": 0.0021, "step": 230 }, { "epoch": 50.53, "learning_rate": 0.004, "loss": 0.0016, "step": 240 }, { "epoch": 52.63, "learning_rate": 0.003333333333333333, "loss": 0.0019, "step": 250 }, { "epoch": 54.74, "learning_rate": 0.0026666666666666666, "loss": 0.0019, "step": 260 }, { "epoch": 56.84, "learning_rate": 0.002, "loss": 0.0018, "step": 270 }, { "epoch": 58.95, "learning_rate": 0.0013333333333333333, "loss": 0.0021, "step": 280 }, { "epoch": 61.05, "learning_rate": 0.0006666666666666666, "loss": 0.0017, "step": 290 }, { "epoch": 63.16, "learning_rate": 0.0, "loss": 0.0018, "step": 300 } ], "max_steps": 300, "num_train_epochs": 75, "total_flos": 3.47740516122624e+16, "trial_name": null, "trial_params": null }