zephyr-7b-sft-full-10ep / trainer_state.json

Model save

27c296b verified 6 months ago

10.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 230,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.043478260869565216,
	"grad_norm": 175.07723361554483,
	"learning_rate": 8.695652173913044e-07,
	"loss": 1.9054,
	"step": 1
	},
	{
	"epoch": 0.21739130434782608,
	"grad_norm": 62.962929820729734,
	"learning_rate": 4.347826086956522e-06,
	"loss": 1.4576,
	"step": 5
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 8.648281883873826,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.6132,
	"step": 10
	},
	{
	"epoch": 0.6521739130434783,
	"grad_norm": 16.239431113601718,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 0.3115,
	"step": 15
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 3.450808311744288,
	"learning_rate": 1.739130434782609e-05,
	"loss": 0.203,
	"step": 20
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.10863249748945236,
	"eval_runtime": 67.8349,
	"eval_samples_per_second": 21.169,
	"eval_steps_per_second": 0.663,
	"step": 23
	},
	{
	"epoch": 1.0869565217391304,
	"grad_norm": 34.3749757818615,
	"learning_rate": 1.9995393663024054e-05,
	"loss": 0.1339,
	"step": 25
	},
	{
	"epoch": 1.3043478260869565,
	"grad_norm": 2.3841429135265555,
	"learning_rate": 1.9943621095573588e-05,
	"loss": 0.1249,
	"step": 30
	},
	{
	"epoch": 1.5217391304347827,
	"grad_norm": 1.2759644316371075,
	"learning_rate": 1.9834617016337424e-05,
	"loss": 0.088,
	"step": 35
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 34.92728113964099,
	"learning_rate": 1.9669008809262064e-05,
	"loss": 0.0829,
	"step": 40
	},
	{
	"epoch": 1.9565217391304348,
	"grad_norm": 2.0028289380489945,
	"learning_rate": 1.944774964904754e-05,
	"loss": 0.0942,
	"step": 45
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.07020141929388046,
	"eval_runtime": 67.1251,
	"eval_samples_per_second": 21.393,
	"eval_steps_per_second": 0.67,
	"step": 46
	},
	{
	"epoch": 2.1739130434782608,
	"grad_norm": 1.3438276529586066,
	"learning_rate": 1.917211301505453e-05,
	"loss": 0.0674,
	"step": 50
	},
	{
	"epoch": 2.391304347826087,
	"grad_norm": 1142.7739612838905,
	"learning_rate": 1.8843685361665724e-05,
	"loss": 0.0668,
	"step": 55
	},
	{
	"epoch": 2.608695652173913,
	"grad_norm": 2.660687233406025,
	"learning_rate": 1.8464356987288012e-05,
	"loss": 0.065,
	"step": 60
	},
	{
	"epoch": 2.8260869565217392,
	"grad_norm": 6.723586538182285,
	"learning_rate": 1.8036311154549783e-05,
	"loss": 0.064,
	"step": 65
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.057872917503118515,
	"eval_runtime": 67.6569,
	"eval_samples_per_second": 21.225,
	"eval_steps_per_second": 0.665,
	"step": 69
	},
	{
	"epoch": 3.0434782608695654,
	"grad_norm": 0.7827050845032839,
	"learning_rate": 1.7562011524313187e-05,
	"loss": 0.0604,
	"step": 70
	},
	{
	"epoch": 3.260869565217391,
	"grad_norm": 1.2639368123822572,
	"learning_rate": 1.7044187975826126e-05,
	"loss": 0.0755,
	"step": 75
	},
	{
	"epoch": 3.4782608695652173,
	"grad_norm": 0.9047997047917037,
	"learning_rate": 1.648582089462756e-05,
	"loss": 0.0569,
	"step": 80
	},
	{
	"epoch": 3.6956521739130435,
	"grad_norm": 0.5428178712369748,
	"learning_rate": 1.589012401863864e-05,
	"loss": 0.0577,
	"step": 85
	},
	{
	"epoch": 3.9130434782608696,
	"grad_norm": 0.6450527453899985,
	"learning_rate": 1.526052594117071e-05,
	"loss": 0.055,
	"step": 90
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.05387277901172638,
	"eval_runtime": 67.296,
	"eval_samples_per_second": 21.339,
	"eval_steps_per_second": 0.669,
	"step": 92
	},
	{
	"epoch": 4.130434782608695,
	"grad_norm": 0.6167289429330038,
	"learning_rate": 1.4600650377311523e-05,
	"loss": 0.0549,
	"step": 95
	},
	{
	"epoch": 4.3478260869565215,
	"grad_norm": 0.5274268025844417,
	"learning_rate": 1.3914295307268396e-05,
	"loss": 0.0535,
	"step": 100
	},
	{
	"epoch": 4.565217391304348,
	"grad_norm": 4.645394192055986,
	"learning_rate": 1.3205411116710973e-05,
	"loss": 0.0558,
	"step": 105
	},
	{
	"epoch": 4.782608695652174,
	"grad_norm": 0.44016634132559596,
	"learning_rate": 1.2478077859929e-05,
	"loss": 0.0557,
	"step": 110
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.37871781752696215,
	"learning_rate": 1.1736481776669307e-05,
	"loss": 0.0533,
	"step": 115
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.05291759595274925,
	"eval_runtime": 67.622,
	"eval_samples_per_second": 21.236,
	"eval_steps_per_second": 0.665,
	"step": 115
	},
	{
	"epoch": 5.217391304347826,
	"grad_norm": 0.4605215085179153,
	"learning_rate": 1.0984891197811686e-05,
	"loss": 0.0526,
	"step": 120
	},
	{
	"epoch": 5.434782608695652,
	"grad_norm": 0.5874492251340868,
	"learning_rate": 1.0227631978561057e-05,
	"loss": 0.0531,
	"step": 125
	},
	{
	"epoch": 5.6521739130434785,
	"grad_norm": 0.29510087532653284,
	"learning_rate": 9.469062600552509e-06,
	"loss": 0.0525,
	"step": 130
	},
	{
	"epoch": 5.869565217391305,
	"grad_norm": 0.344906161076209,
	"learning_rate": 8.71354908617169e-06,
	"loss": 0.0525,
	"step": 135
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.0515441857278347,
	"eval_runtime": 67.5553,
	"eval_samples_per_second": 21.257,
	"eval_steps_per_second": 0.666,
	"step": 138
	},
	{
	"epoch": 6.086956521739131,
	"grad_norm": 0.36354029610859134,
	"learning_rate": 7.965439869473664e-06,
	"loss": 0.0514,
	"step": 140
	},
	{
	"epoch": 6.304347826086957,
	"grad_norm": 0.26428382375759113,
	"learning_rate": 7.2290407683331154e-06,
	"loss": 0.0515,
	"step": 145
	},
	{
	"epoch": 6.521739130434782,
	"grad_norm": 0.22822648732081055,
	"learning_rate": 6.508590201876317e-06,
	"loss": 0.0512,
	"step": 150
	},
	{
	"epoch": 6.739130434782608,
	"grad_norm": 0.25828737593751994,
	"learning_rate": 5.8082347958333625e-06,
	"loss": 0.0513,
	"step": 155
	},
	{
	"epoch": 6.956521739130435,
	"grad_norm": 0.2285799063924952,
	"learning_rate": 5.132005516216512e-06,
	"loss": 0.0519,
	"step": 160
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.05051277205348015,
	"eval_runtime": 67.5123,
	"eval_samples_per_second": 21.27,
	"eval_steps_per_second": 0.667,
	"step": 161
	},
	{
	"epoch": 7.173913043478261,
	"grad_norm": 0.24475626828923558,
	"learning_rate": 4.483794468689728e-06,
	"loss": 0.0508,
	"step": 165
	},
	{
	"epoch": 7.391304347826087,
	"grad_norm": 0.2520072015362384,
	"learning_rate": 3.867332497162836e-06,
	"loss": 0.0504,
	"step": 170
	},
	{
	"epoch": 7.608695652173913,
	"grad_norm": 0.27382520169651525,
	"learning_rate": 3.2861677105440335e-06,
	"loss": 0.0504,
	"step": 175
	},
	{
	"epoch": 7.826086956521739,
	"grad_norm": 0.2716287514584957,
	"learning_rate": 2.7436450612420098e-06,
	"loss": 0.0505,
	"step": 180
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.04957514628767967,
	"eval_runtime": 67.276,
	"eval_samples_per_second": 21.345,
	"eval_steps_per_second": 0.669,
	"step": 184
	},
	{
	"epoch": 8.043478260869565,
	"grad_norm": 0.21787711573464694,
	"learning_rate": 2.2428870929558012e-06,
	"loss": 0.0496,
	"step": 185
	},
	{
	"epoch": 8.26086956521739,
	"grad_norm": 0.21445383159071862,
	"learning_rate": 1.7867759685603115e-06,
	"loss": 0.0494,
	"step": 190
	},
	{
	"epoch": 8.478260869565217,
	"grad_norm": 0.24405861737397047,
	"learning_rate": 1.3779368815278648e-06,
	"loss": 0.0491,
	"step": 195
	},
	{
	"epoch": 8.695652173913043,
	"grad_norm": 0.2697463930100617,
	"learning_rate": 1.01872294636304e-06,
	"loss": 0.0495,
	"step": 200
	},
	{
	"epoch": 8.91304347826087,
	"grad_norm": 0.21112878071345867,
	"learning_rate": 7.1120165501533e-07,
	"loss": 0.0494,
	"step": 205
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.048730239272117615,
	"eval_runtime": 66.913,
	"eval_samples_per_second": 21.461,
	"eval_steps_per_second": 0.673,
	"step": 207
	},
	{
	"epoch": 9.130434782608695,
	"grad_norm": 0.19010353057716406,
	"learning_rate": 4.5714297722121105e-07,
	"loss": 0.049,
	"step": 210
	},
	{
	"epoch": 9.347826086956522,
	"grad_norm": 0.17948234694281104,
	"learning_rate": 2.5800917326521013e-07,
	"loss": 0.0491,
	"step": 215
	},
	{
	"epoch": 9.565217391304348,
	"grad_norm": 0.19343675188279383,
	"learning_rate": 1.1494637779369766e-07,
	"loss": 0.0489,
	"step": 220
	},
	{
	"epoch": 9.782608695652174,
	"grad_norm": 0.21072621537133224,
	"learning_rate": 2.8778003121607834e-08,
	"loss": 0.0483,
	"step": 225
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.18309652115048786,
	"learning_rate": 0.0,
	"loss": 0.0484,
	"step": 230
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.0484623983502388,
	"eval_runtime": 67.5159,
	"eval_samples_per_second": 21.269,
	"eval_steps_per_second": 0.667,
	"step": 230
	},
	{
	"epoch": 10.0,
	"step": 230,
	"total_flos": 48157320806400.0,
	"train_loss": 0.1130801611620447,
	"train_runtime": 3471.4646,
	"train_samples_per_second": 4.137,
	"train_steps_per_second": 0.066
	}
	],
	"logging_steps": 5,
	"max_steps": 230,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 100,
	"total_flos": 48157320806400.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}