LORA_Phi-3-HornyVision-128k-instruct / trainer_state.json

Update 11.07 bulild v13

820dbd8 verified 4 months ago

48.4 kB

	{
	"best_metric": 1.47908163,
	"best_model_checkpoint": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v9-20240710-235159\\checkpoint-500",
	"epoch": 2.8828828828828827,
	"eval_steps": 50,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"acc": 0.4856407,
	"epoch": 0.0036036036036036037,
	"grad_norm": 0.734375,
	"learning_rate": 2.4107142857142856e-06,
	"loss": 2.42667556,
	"memory(GiB)": 18.11,
	"step": 1,
	"train_speed(iter/s)": 0.072451
	},
	{
	"acc": 0.50815099,
	"epoch": 0.018018018018018018,
	"grad_norm": 0.671875,
	"learning_rate": 1.2053571428571429e-05,
	"loss": 2.28746271,
	"memory(GiB)": 19.3,
	"step": 5,
	"train_speed(iter/s)": 0.081978
	},
	{
	"acc": 0.50680609,
	"epoch": 0.036036036036036036,
	"grad_norm": 0.76953125,
	"learning_rate": 2.4107142857142858e-05,
	"loss": 2.29894772,
	"memory(GiB)": 19.3,
	"step": 10,
	"train_speed(iter/s)": 0.084125
	},
	{
	"acc": 0.51412601,
	"epoch": 0.05405405405405406,
	"grad_norm": 0.76171875,
	"learning_rate": 3.616071428571428e-05,
	"loss": 2.34161263,
	"memory(GiB)": 19.7,
	"step": 15,
	"train_speed(iter/s)": 0.08456
	},
	{
	"acc": 0.52338777,
	"epoch": 0.07207207207207207,
	"grad_norm": 0.6015625,
	"learning_rate": 4.8214285714285716e-05,
	"loss": 2.23036633,
	"memory(GiB)": 19.88,
	"step": 20,
	"train_speed(iter/s)": 0.084117
	},
	{
	"acc": 0.55944238,
	"epoch": 0.09009009009009009,
	"grad_norm": 0.66796875,
	"learning_rate": 6.026785714285715e-05,
	"loss": 2.01084595,
	"memory(GiB)": 19.93,
	"step": 25,
	"train_speed(iter/s)": 0.084444
	},
	{
	"acc": 0.57758675,
	"epoch": 0.10810810810810811,
	"grad_norm": 0.765625,
	"learning_rate": 7.232142857142856e-05,
	"loss": 1.94100876,
	"memory(GiB)": 20.21,
	"step": 30,
	"train_speed(iter/s)": 0.085158
	},
	{
	"acc": 0.5666451,
	"epoch": 0.12612612612612611,
	"grad_norm": 0.796875,
	"learning_rate": 8.4375e-05,
	"loss": 1.96992569,
	"memory(GiB)": 19.42,
	"step": 35,
	"train_speed(iter/s)": 0.085562
	},
	{
	"acc": 0.55766659,
	"epoch": 0.14414414414414414,
	"grad_norm": 0.828125,
	"learning_rate": 9.642857142857143e-05,
	"loss": 2.01305885,
	"memory(GiB)": 19.71,
	"step": 40,
	"train_speed(iter/s)": 0.0857
	},
	{
	"acc": 0.56964116,
	"epoch": 0.16216216216216217,
	"grad_norm": 0.83203125,
	"learning_rate": 0.00010848214285714286,
	"loss": 1.925914,
	"memory(GiB)": 19.68,
	"step": 45,
	"train_speed(iter/s)": 0.08577
	},
	{
	"acc": 0.56270452,
	"epoch": 0.18018018018018017,
	"grad_norm": 0.9375,
	"learning_rate": 0.0001205357142857143,
	"loss": 1.94923038,
	"memory(GiB)": 19.65,
	"step": 50,
	"train_speed(iter/s)": 0.085942
	},
	{
	"epoch": 0.18018018018018017,
	"eval_acc": 0.5890983000739098,
	"eval_loss": 1.795773983001709,
	"eval_runtime": 136.6505,
	"eval_samples_per_second": 1.105,
	"eval_steps_per_second": 0.556,
	"step": 50
	},
	{
	"acc": 0.57772484,
	"epoch": 0.1981981981981982,
	"grad_norm": 0.7265625,
	"learning_rate": 0.00013258928571428571,
	"loss": 1.86195869,
	"memory(GiB)": 23.11,
	"step": 55,
	"train_speed(iter/s)": 0.070857
	},
	{
	"acc": 0.59196444,
	"epoch": 0.21621621621621623,
	"grad_norm": 0.8125,
	"learning_rate": 0.00013499518432841625,
	"loss": 1.74724998,
	"memory(GiB)": 19.42,
	"step": 60,
	"train_speed(iter/s)": 0.071911
	},
	{
	"acc": 0.57253065,
	"epoch": 0.23423423423423423,
	"grad_norm": 0.69921875,
	"learning_rate": 0.00013497562184025362,
	"loss": 1.87580814,
	"memory(GiB)": 19.61,
	"step": 65,
	"train_speed(iter/s)": 0.072807
	},
	{
	"acc": 0.59546819,
	"epoch": 0.25225225225225223,
	"grad_norm": 0.73046875,
	"learning_rate": 0.00013494101591406666,
	"loss": 1.73464546,
	"memory(GiB)": 19.58,
	"step": 70,
	"train_speed(iter/s)": 0.073652
	},
	{
	"acc": 0.59667702,
	"epoch": 0.2702702702702703,
	"grad_norm": 0.8203125,
	"learning_rate": 0.00013489137426511745,
	"loss": 1.69518318,
	"memory(GiB)": 18.19,
	"step": 75,
	"train_speed(iter/s)": 0.074445
	},
	{
	"acc": 0.61824327,
	"epoch": 0.2882882882882883,
	"grad_norm": 0.828125,
	"learning_rate": 0.00013482670796082633,
	"loss": 1.64374161,
	"memory(GiB)": 19.52,
	"step": 80,
	"train_speed(iter/s)": 0.075071
	},
	{
	"acc": 0.60798159,
	"epoch": 0.3063063063063063,
	"grad_norm": 0.7734375,
	"learning_rate": 0.00013474703141830443,
	"loss": 1.68669338,
	"memory(GiB)": 19.57,
	"step": 85,
	"train_speed(iter/s)": 0.07562
	},
	{
	"acc": 0.5981144,
	"epoch": 0.32432432432432434,
	"grad_norm": 0.80078125,
	"learning_rate": 0.00013465236240113953,
	"loss": 1.701264,
	"memory(GiB)": 20.19,
	"step": 90,
	"train_speed(iter/s)": 0.076188
	},
	{
	"acc": 0.59871612,
	"epoch": 0.34234234234234234,
	"grad_norm": 1.0234375,
	"learning_rate": 0.00013454272201543564,
	"loss": 1.76608849,
	"memory(GiB)": 19.35,
	"step": 95,
	"train_speed(iter/s)": 0.076637
	},
	{
	"acc": 0.61396523,
	"epoch": 0.36036036036036034,
	"grad_norm": 0.7109375,
	"learning_rate": 0.00013441813470510747,
	"loss": 1.61449242,
	"memory(GiB)": 19.69,
	"step": 100,
	"train_speed(iter/s)": 0.077075
	},
	{
	"epoch": 0.36036036036036034,
	"eval_acc": 0.6091648189209165,
	"eval_loss": 1.6449466943740845,
	"eval_runtime": 134.5726,
	"eval_samples_per_second": 1.122,
	"eval_steps_per_second": 0.565,
	"step": 100
	},
	{
	"acc": 0.61147785,
	"epoch": 0.3783783783783784,
	"grad_norm": 0.69921875,
	"learning_rate": 0.00013427862824643083,
	"loss": 1.60589867,
	"memory(GiB)": 21.03,
	"step": 105,
	"train_speed(iter/s)": 0.070426
	},
	{
	"acc": 0.6038115,
	"epoch": 0.3963963963963964,
	"grad_norm": 0.88671875,
	"learning_rate": 0.00013412423374184996,
	"loss": 1.69055023,
	"memory(GiB)": 19.44,
	"step": 110,
	"train_speed(iter/s)": 0.07105
	},
	{
	"acc": 0.62303677,
	"epoch": 0.4144144144144144,
	"grad_norm": 0.84375,
	"learning_rate": 0.00013395498561304334,
	"loss": 1.5716897,
	"memory(GiB)": 19.27,
	"step": 115,
	"train_speed(iter/s)": 0.071618
	},
	{
	"acc": 0.6214046,
	"epoch": 0.43243243243243246,
	"grad_norm": 0.640625,
	"learning_rate": 0.00013377092159324956,
	"loss": 1.57531881,
	"memory(GiB)": 19.36,
	"step": 120,
	"train_speed(iter/s)": 0.07209
	},
	{
	"acc": 0.58676672,
	"epoch": 0.45045045045045046,
	"grad_norm": 0.68359375,
	"learning_rate": 0.00013357208271885473,
	"loss": 1.74933128,
	"memory(GiB)": 19.32,
	"step": 125,
	"train_speed(iter/s)": 0.072581
	},
	{
	"acc": 0.59380612,
	"epoch": 0.46846846846846846,
	"grad_norm": 0.7890625,
	"learning_rate": 0.00013335851332024374,
	"loss": 1.69583378,
	"memory(GiB)": 20.18,
	"step": 130,
	"train_speed(iter/s)": 0.073016
	},
	{
	"acc": 0.62007999,
	"epoch": 0.4864864864864865,
	"grad_norm": 0.73828125,
	"learning_rate": 0.0001331302610119168,
	"loss": 1.60020466,
	"memory(GiB)": 19.52,
	"step": 135,
	"train_speed(iter/s)": 0.073417
	},
	{
	"acc": 0.6116991,
	"epoch": 0.5045045045045045,
	"grad_norm": 1.1015625,
	"learning_rate": 0.00013288737668187408,
	"loss": 1.62470894,
	"memory(GiB)": 19.47,
	"step": 140,
	"train_speed(iter/s)": 0.073817
	},
	{
	"acc": 0.60051751,
	"epoch": 0.5225225225225225,
	"grad_norm": 0.87109375,
	"learning_rate": 0.00013262991448027034,
	"loss": 1.6651041,
	"memory(GiB)": 19.42,
	"step": 145,
	"train_speed(iter/s)": 0.074194
	},
	{
	"acc": 0.60736594,
	"epoch": 0.5405405405405406,
	"grad_norm": 0.76953125,
	"learning_rate": 0.00013235793180734238,
	"loss": 1.64281559,
	"memory(GiB)": 19.53,
	"step": 150,
	"train_speed(iter/s)": 0.074547
	},
	{
	"epoch": 0.5405405405405406,
	"eval_acc": 0.6190317812269032,
	"eval_loss": 1.5917434692382812,
	"eval_runtime": 135.0141,
	"eval_samples_per_second": 1.118,
	"eval_steps_per_second": 0.563,
	"step": 150
	},
	{
	"acc": 0.61663914,
	"epoch": 0.5585585585585585,
	"grad_norm": 1.0625,
	"learning_rate": 0.00013207148930061195,
	"loss": 1.60914173,
	"memory(GiB)": 23.05,
	"step": 155,
	"train_speed(iter/s)": 0.070306
	},
	{
	"acc": 0.60967774,
	"epoch": 0.5765765765765766,
	"grad_norm": 0.76953125,
	"learning_rate": 0.00013177065082136668,
	"loss": 1.59582939,
	"memory(GiB)": 19.47,
	"step": 160,
	"train_speed(iter/s)": 0.070712
	},
	{
	"acc": 0.63630972,
	"epoch": 0.5945945945945946,
	"grad_norm": 0.70703125,
	"learning_rate": 0.00013145548344042262,
	"loss": 1.50356016,
	"memory(GiB)": 19.62,
	"step": 165,
	"train_speed(iter/s)": 0.071104
	},
	{
	"acc": 0.60439692,
	"epoch": 0.6126126126126126,
	"grad_norm": 0.73046875,
	"learning_rate": 0.00013112605742317095,
	"loss": 1.67050171,
	"memory(GiB)": 19.41,
	"step": 170,
	"train_speed(iter/s)": 0.071478
	},
	{
	"acc": 0.62380457,
	"epoch": 0.6306306306306306,
	"grad_norm": 0.76171875,
	"learning_rate": 0.0001307824462139125,
	"loss": 1.53042831,
	"memory(GiB)": 19.5,
	"step": 175,
	"train_speed(iter/s)": 0.071843
	},
	{
	"acc": 0.61549187,
	"epoch": 0.6486486486486487,
	"grad_norm": 0.7578125,
	"learning_rate": 0.00013042472641948386,
	"loss": 1.59476538,
	"memory(GiB)": 19.53,
	"step": 180,
	"train_speed(iter/s)": 0.072168
	},
	{
	"acc": 0.64418182,
	"epoch": 0.6666666666666666,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0001300529777921779,
	"loss": 1.47999802,
	"memory(GiB)": 19.32,
	"step": 185,
	"train_speed(iter/s)": 0.072501
	},
	{
	"acc": 0.62201657,
	"epoch": 0.6846846846846847,
	"grad_norm": 0.6484375,
	"learning_rate": 0.00012966728321196346,
	"loss": 1.5685544,
	"memory(GiB)": 19.47,
	"step": 190,
	"train_speed(iter/s)": 0.072821
	},
	{
	"acc": 0.61418505,
	"epoch": 0.7027027027027027,
	"grad_norm": 0.8984375,
	"learning_rate": 0.00012926772866800757,
	"loss": 1.6284462,
	"memory(GiB)": 19.45,
	"step": 195,
	"train_speed(iter/s)": 0.073127
	},
	{
	"acc": 0.62820964,
	"epoch": 0.7207207207207207,
	"grad_norm": 0.8515625,
	"learning_rate": 0.00012885440323950434,
	"loss": 1.54364405,
	"memory(GiB)": 19.53,
	"step": 200,
	"train_speed(iter/s)": 0.073413
	},
	{
	"epoch": 0.7207207207207207,
	"eval_acc": 0.6269770879526977,
	"eval_loss": 1.5466336011886597,
	"eval_runtime": 134.7868,
	"eval_samples_per_second": 1.12,
	"eval_steps_per_second": 0.564,
	"step": 200
	},
	{
	"acc": 0.6605804,
	"epoch": 0.7387387387387387,
	"grad_norm": 0.7578125,
	"learning_rate": 0.00012842739907581525,
	"loss": 1.42957153,
	"memory(GiB)": 23.0,
	"step": 205,
	"train_speed(iter/s)": 0.070232
	},
	{
	"acc": 0.61267309,
	"epoch": 0.7567567567567568,
	"grad_norm": 0.90234375,
	"learning_rate": 0.00012798681137592477,
	"loss": 1.62853241,
	"memory(GiB)": 17.96,
	"step": 210,
	"train_speed(iter/s)": 0.070571
	},
	{
	"acc": 0.63069816,
	"epoch": 0.7747747747747747,
	"grad_norm": 0.89453125,
	"learning_rate": 0.00012753273836721597,
	"loss": 1.56295233,
	"memory(GiB)": 19.4,
	"step": 215,
	"train_speed(iter/s)": 0.070892
	},
	{
	"acc": 0.60362072,
	"epoch": 0.7927927927927928,
	"grad_norm": 1.0703125,
	"learning_rate": 0.00012706528128357127,
	"loss": 1.63038826,
	"memory(GiB)": 19.37,
	"step": 220,
	"train_speed(iter/s)": 0.071181
	},
	{
	"acc": 0.62272639,
	"epoch": 0.8108108108108109,
	"grad_norm": 0.8828125,
	"learning_rate": 0.00012658454434280253,
	"loss": 1.5756237,
	"memory(GiB)": 19.62,
	"step": 225,
	"train_speed(iter/s)": 0.071466
	},
	{
	"acc": 0.59926658,
	"epoch": 0.8288288288288288,
	"grad_norm": 0.75390625,
	"learning_rate": 0.00012609063472341633,
	"loss": 1.60503426,
	"memory(GiB)": 19.63,
	"step": 230,
	"train_speed(iter/s)": 0.071751
	},
	{
	"acc": 0.60133944,
	"epoch": 0.8468468468468469,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0001255836625407187,
	"loss": 1.64450779,
	"memory(GiB)": 19.31,
	"step": 235,
	"train_speed(iter/s)": 0.072034
	},
	{
	"acc": 0.64020758,
	"epoch": 0.8648648648648649,
	"grad_norm": 0.9375,
	"learning_rate": 0.00012506374082226534,
	"loss": 1.47053967,
	"memory(GiB)": 18.85,
	"step": 240,
	"train_speed(iter/s)": 0.072286
	},
	{
	"acc": 0.62713485,
	"epoch": 0.8828828828828829,
	"grad_norm": 0.82421875,
	"learning_rate": 0.00012453098548266276,
	"loss": 1.51464148,
	"memory(GiB)": 19.35,
	"step": 245,
	"train_speed(iter/s)": 0.07254
	},
	{
	"acc": 0.6202302,
	"epoch": 0.9009009009009009,
	"grad_norm": 0.625,
	"learning_rate": 0.0001239855152977253,
	"loss": 1.54778471,
	"memory(GiB)": 19.53,
	"step": 250,
	"train_speed(iter/s)": 0.072758
	},
	{
	"epoch": 0.9009009009009009,
	"eval_acc": 0.6308573540280857,
	"eval_loss": 1.510523796081543,
	"eval_runtime": 134.5445,
	"eval_samples_per_second": 1.122,
	"eval_steps_per_second": 0.565,
	"step": 250
	},
	{
	"acc": 0.63671951,
	"epoch": 0.918918918918919,
	"grad_norm": 1.7109375,
	"learning_rate": 0.00012342745187799459,
	"loss": 1.48321924,
	"memory(GiB)": 19.53,
	"step": 255,
	"train_speed(iter/s)": 0.070273
	},
	{
	"acc": 0.63577223,
	"epoch": 0.9369369369369369,
	"grad_norm": 0.7890625,
	"learning_rate": 0.000122856919641627,
	"loss": 1.50699987,
	"memory(GiB)": 19.94,
	"step": 260,
	"train_speed(iter/s)": 0.070553
	},
	{
	"acc": 0.64953299,
	"epoch": 0.954954954954955,
	"grad_norm": 0.85546875,
	"learning_rate": 0.000122274045786655,
	"loss": 1.46005678,
	"memory(GiB)": 20.1,
	"step": 265,
	"train_speed(iter/s)": 0.070802
	},
	{
	"acc": 0.62153759,
	"epoch": 0.972972972972973,
	"grad_norm": 1.0625,
	"learning_rate": 0.00012167896026262893,
	"loss": 1.55834417,
	"memory(GiB)": 19.86,
	"step": 270,
	"train_speed(iter/s)": 0.071052
	},
	{
	"acc": 0.64055209,
	"epoch": 0.990990990990991,
	"grad_norm": 1.125,
	"learning_rate": 0.00012107179574164504,
	"loss": 1.54932261,
	"memory(GiB)": 20.06,
	"step": 275,
	"train_speed(iter/s)": 0.071274
	},
	{
	"acc": 0.62708969,
	"epoch": 1.009009009009009,
	"grad_norm": 0.671875,
	"learning_rate": 0.00012045268758876699,
	"loss": 1.49731979,
	"memory(GiB)": 19.82,
	"step": 280,
	"train_speed(iter/s)": 0.07152
	},
	{
	"acc": 0.6689836,
	"epoch": 1.027027027027027,
	"grad_norm": 0.859375,
	"learning_rate": 0.00011982177383184648,
	"loss": 1.2817215,
	"memory(GiB)": 19.85,
	"step": 285,
	"train_speed(iter/s)": 0.07175
	},
	{
	"acc": 0.67519293,
	"epoch": 1.045045045045045,
	"grad_norm": 1.046875,
	"learning_rate": 0.00011917919513075066,
	"loss": 1.28632126,
	"memory(GiB)": 19.98,
	"step": 290,
	"train_speed(iter/s)": 0.071951
	},
	{
	"acc": 0.67276659,
	"epoch": 1.063063063063063,
	"grad_norm": 0.8984375,
	"learning_rate": 0.00011852509474600237,
	"loss": 1.27065611,
	"memory(GiB)": 20.03,
	"step": 295,
	"train_speed(iter/s)": 0.072155
	},
	{
	"acc": 0.64641519,
	"epoch": 1.0810810810810811,
	"grad_norm": 0.98046875,
	"learning_rate": 0.00011785961850684083,
	"loss": 1.38271847,
	"memory(GiB)": 19.09,
	"step": 300,
	"train_speed(iter/s)": 0.072371
	},
	{
	"epoch": 1.0810810810810811,
	"eval_acc": 0.6305617147080562,
	"eval_loss": 1.523685097694397,
	"eval_runtime": 134.8234,
	"eval_samples_per_second": 1.12,
	"eval_steps_per_second": 0.564,
	"step": 300
	},
	{
	"acc": 0.67837138,
	"epoch": 1.0990990990990992,
	"grad_norm": 0.953125,
	"learning_rate": 0.00011718291477870959,
	"loss": 1.29290819,
	"memory(GiB)": 22.8,
	"step": 305,
	"train_speed(iter/s)": 0.070277
	},
	{
	"acc": 0.67195911,
	"epoch": 1.117117117117117,
	"grad_norm": 1.796875,
	"learning_rate": 0.00011649513443017889,
	"loss": 1.24073734,
	"memory(GiB)": 19.39,
	"step": 310,
	"train_speed(iter/s)": 0.070516
	},
	{
	"acc": 0.69478951,
	"epoch": 1.135135135135135,
	"grad_norm": 1.203125,
	"learning_rate": 0.00011579643079931018,
	"loss": 1.20378675,
	"memory(GiB)": 19.38,
	"step": 315,
	"train_speed(iter/s)": 0.070713
	},
	{
	"acc": 0.68726826,
	"epoch": 1.1531531531531531,
	"grad_norm": 0.98828125,
	"learning_rate": 0.00011508695965946992,
	"loss": 1.23284683,
	"memory(GiB)": 19.98,
	"step": 320,
	"train_speed(iter/s)": 0.070919
	},
	{
	"acc": 0.65419765,
	"epoch": 1.1711711711711712,
	"grad_norm": 0.93359375,
	"learning_rate": 0.00011436687918460052,
	"loss": 1.37520065,
	"memory(GiB)": 20.02,
	"step": 325,
	"train_speed(iter/s)": 0.071117
	},
	{
	"acc": 0.66610641,
	"epoch": 1.1891891891891893,
	"grad_norm": 0.8671875,
	"learning_rate": 0.000113636349913956,
	"loss": 1.30743008,
	"memory(GiB)": 19.35,
	"step": 330,
	"train_speed(iter/s)": 0.071322
	},
	{
	"acc": 0.67390976,
	"epoch": 1.2072072072072073,
	"grad_norm": 1.6640625,
	"learning_rate": 0.00011289553471631045,
	"loss": 1.28322783,
	"memory(GiB)": 19.49,
	"step": 335,
	"train_speed(iter/s)": 0.071518
	},
	{
	"acc": 0.68137512,
	"epoch": 1.2252252252252251,
	"grad_norm": 0.6953125,
	"learning_rate": 0.00011214459875364693,
	"loss": 1.23027716,
	"memory(GiB)": 19.38,
	"step": 340,
	"train_speed(iter/s)": 0.071692
	},
	{
	"acc": 0.67859125,
	"epoch": 1.2432432432432432,
	"grad_norm": 0.78515625,
	"learning_rate": 0.00011138370944433531,
	"loss": 1.22896252,
	"memory(GiB)": 20.06,
	"step": 345,
	"train_speed(iter/s)": 0.071876
	},
	{
	"acc": 0.66445112,
	"epoch": 1.2612612612612613,
	"grad_norm": 0.90234375,
	"learning_rate": 0.00011061303642580694,
	"loss": 1.30674038,
	"memory(GiB)": 19.49,
	"step": 350,
	"train_speed(iter/s)": 0.072045
	},
	{
	"epoch": 1.2612612612612613,
	"eval_acc": 0.6356245380635624,
	"eval_loss": 1.5072119235992432,
	"eval_runtime": 134.5232,
	"eval_samples_per_second": 1.122,
	"eval_steps_per_second": 0.565,
	"step": 350
	},
	{
	"acc": 0.67729836,
	"epoch": 1.2792792792792793,
	"grad_norm": 0.90625,
	"learning_rate": 0.00010983275151673467,
	"loss": 1.24173574,
	"memory(GiB)": 18.93,
	"step": 355,
	"train_speed(iter/s)": 0.07029
	},
	{
	"acc": 0.7040791,
	"epoch": 1.2972972972972974,
	"grad_norm": 0.84765625,
	"learning_rate": 0.00010904302867872639,
	"loss": 1.17582674,
	"memory(GiB)": 19.29,
	"step": 360,
	"train_speed(iter/s)": 0.070479
	},
	{
	"acc": 0.66356058,
	"epoch": 1.3153153153153152,
	"grad_norm": 0.82421875,
	"learning_rate": 0.00010824404397754104,
	"loss": 1.26798725,
	"memory(GiB)": 19.36,
	"step": 365,
	"train_speed(iter/s)": 0.070661
	},
	{
	"acc": 0.69379635,
	"epoch": 1.3333333333333333,
	"grad_norm": 0.98828125,
	"learning_rate": 0.0001074359755438354,
	"loss": 1.24331112,
	"memory(GiB)": 20.16,
	"step": 370,
	"train_speed(iter/s)": 0.070843
	},
	{
	"acc": 0.68220735,
	"epoch": 1.3513513513513513,
	"grad_norm": 0.94140625,
	"learning_rate": 0.00010661900353345051,
	"loss": 1.20891714,
	"memory(GiB)": 19.61,
	"step": 375,
	"train_speed(iter/s)": 0.071015
	},
	{
	"acc": 0.67620883,
	"epoch": 1.3693693693693694,
	"grad_norm": 1.0625,
	"learning_rate": 0.0001057933100872466,
	"loss": 1.23957863,
	"memory(GiB)": 20.17,
	"step": 380,
	"train_speed(iter/s)": 0.071181
	},
	{
	"acc": 0.63655629,
	"epoch": 1.3873873873873874,
	"grad_norm": 0.78515625,
	"learning_rate": 0.00010495907929049546,
	"loss": 1.44390507,
	"memory(GiB)": 19.25,
	"step": 385,
	"train_speed(iter/s)": 0.071356
	},
	{
	"acc": 0.67883902,
	"epoch": 1.4054054054054055,
	"grad_norm": 0.8828125,
	"learning_rate": 0.00010411649713183925,
	"loss": 1.29691544,
	"memory(GiB)": 18.78,
	"step": 390,
	"train_speed(iter/s)": 0.071515
	},
	{
	"acc": 0.67202511,
	"epoch": 1.4234234234234235,
	"grad_norm": 0.953125,
	"learning_rate": 0.00010326575146182521,
	"loss": 1.31318274,
	"memory(GiB)": 19.88,
	"step": 395,
	"train_speed(iter/s)": 0.071677
	},
	{
	"acc": 0.69274058,
	"epoch": 1.4414414414414414,
	"grad_norm": 0.82421875,
	"learning_rate": 0.00010240703195102489,
	"loss": 1.15976305,
	"memory(GiB)": 19.46,
	"step": 400,
	"train_speed(iter/s)": 0.071832
	},
	{
	"epoch": 1.4414414414414414,
	"eval_acc": 0.6368440502586844,
	"eval_loss": 1.4986343383789062,
	"eval_runtime": 134.3425,
	"eval_samples_per_second": 1.124,
	"eval_steps_per_second": 0.566,
	"step": 400
	},
	{
	"acc": 0.71039405,
	"epoch": 1.4594594594594594,
	"grad_norm": 0.77734375,
	"learning_rate": 0.0001015405300477479,
	"loss": 1.12253609,
	"memory(GiB)": 19.92,
	"step": 405,
	"train_speed(iter/s)": 0.070298
	},
	{
	"acc": 0.71356583,
	"epoch": 1.4774774774774775,
	"grad_norm": 0.84375,
	"learning_rate": 0.0001006664389353592,
	"loss": 1.13753939,
	"memory(GiB)": 19.31,
	"step": 410,
	"train_speed(iter/s)": 0.070457
	},
	{
	"acc": 0.675458,
	"epoch": 1.4954954954954955,
	"grad_norm": 1.1328125,
	"learning_rate": 9.978495348920958e-05,
	"loss": 1.29233532,
	"memory(GiB)": 19.06,
	"step": 415,
	"train_speed(iter/s)": 0.070616
	},
	{
	"acc": 0.67761598,
	"epoch": 1.5135135135135136,
	"grad_norm": 0.6875,
	"learning_rate": 9.889627023318897e-05,
	"loss": 1.22440186,
	"memory(GiB)": 19.16,
	"step": 420,
	"train_speed(iter/s)": 0.070773
	},
	{
	"acc": 0.67492404,
	"epoch": 1.5315315315315314,
	"grad_norm": 0.81640625,
	"learning_rate": 9.800058729591212e-05,
	"loss": 1.22408361,
	"memory(GiB)": 19.97,
	"step": 425,
	"train_speed(iter/s)": 0.070935
	},
	{
	"acc": 0.68050842,
	"epoch": 1.5495495495495497,
	"grad_norm": 0.84765625,
	"learning_rate": 9.70981043665466e-05,
	"loss": 1.2078824,
	"memory(GiB)": 19.92,
	"step": 430,
	"train_speed(iter/s)": 0.07109
	},
	{
	"acc": 0.6750885,
	"epoch": 1.5675675675675675,
	"grad_norm": 0.66796875,
	"learning_rate": 9.618902265029284e-05,
	"loss": 1.28742075,
	"memory(GiB)": 19.27,
	"step": 435,
	"train_speed(iter/s)": 0.071229
	},
	{
	"acc": 0.64411507,
	"epoch": 1.5855855855855856,
	"grad_norm": 0.95703125,
	"learning_rate": 9.527354482352616e-05,
	"loss": 1.37240067,
	"memory(GiB)": 20.21,
	"step": 440,
	"train_speed(iter/s)": 0.071374
	},
	{
	"acc": 0.67574663,
	"epoch": 1.6036036036036037,
	"grad_norm": 0.83984375,
	"learning_rate": 9.435187498861085e-05,
	"loss": 1.27780771,
	"memory(GiB)": 19.95,
	"step": 445,
	"train_speed(iter/s)": 0.071519
	},
	{
	"acc": 0.67897987,
	"epoch": 1.6216216216216215,
	"grad_norm": 1.2265625,
	"learning_rate": 9.342421862839632e-05,
	"loss": 1.26616125,
	"memory(GiB)": 19.32,
	"step": 450,
	"train_speed(iter/s)": 0.071661
	},
	{
	"epoch": 1.6216216216216215,
	"eval_acc": 0.6424611973392461,
	"eval_loss": 1.4772522449493408,
	"eval_runtime": 134.5995,
	"eval_samples_per_second": 1.122,
	"eval_steps_per_second": 0.565,
	"step": 450
	},
	{
	"acc": 0.66755495,
	"epoch": 1.6396396396396398,
	"grad_norm": 1.0390625,
	"learning_rate": 9.249078256040541e-05,
	"loss": 1.30118093,
	"memory(GiB)": 22.82,
	"step": 455,
	"train_speed(iter/s)": 0.070312
	},
	{
	"acc": 0.66560607,
	"epoch": 1.6576576576576576,
	"grad_norm": 1.0546875,
	"learning_rate": 9.155177489072527e-05,
	"loss": 1.31042576,
	"memory(GiB)": 19.56,
	"step": 460,
	"train_speed(iter/s)": 0.070454
	},
	{
	"acc": 0.67957892,
	"epoch": 1.6756756756756757,
	"grad_norm": 1.3828125,
	"learning_rate": 9.060740496761082e-05,
	"loss": 1.31165123,
	"memory(GiB)": 19.38,
	"step": 465,
	"train_speed(iter/s)": 0.070592
	},
	{
	"acc": 0.6744031,
	"epoch": 1.6936936936936937,
	"grad_norm": 1.4140625,
	"learning_rate": 8.965788333481144e-05,
	"loss": 1.26758223,
	"memory(GiB)": 19.42,
	"step": 470,
	"train_speed(iter/s)": 0.070726
	},
	{
	"acc": 0.66551232,
	"epoch": 1.7117117117117115,
	"grad_norm": 0.98046875,
	"learning_rate": 8.870342168463085e-05,
	"loss": 1.27216129,
	"memory(GiB)": 19.27,
	"step": 475,
	"train_speed(iter/s)": 0.070864
	},
	{
	"acc": 0.65833273,
	"epoch": 1.7297297297297298,
	"grad_norm": 0.9140625,
	"learning_rate": 8.77442328107313e-05,
	"loss": 1.32684155,
	"memory(GiB)": 19.48,
	"step": 480,
	"train_speed(iter/s)": 0.070997
	},
	{
	"acc": 0.68646383,
	"epoch": 1.7477477477477477,
	"grad_norm": 1.3671875,
	"learning_rate": 8.678053056069184e-05,
	"loss": 1.2200016,
	"memory(GiB)": 19.24,
	"step": 485,
	"train_speed(iter/s)": 0.071136
	},
	{
	"acc": 0.69040904,
	"epoch": 1.7657657657657657,
	"grad_norm": 1.6171875,
	"learning_rate": 8.581252978833194e-05,
	"loss": 1.18706884,
	"memory(GiB)": 19.53,
	"step": 490,
	"train_speed(iter/s)": 0.07127
	},
	{
	"acc": 0.66571455,
	"epoch": 1.7837837837837838,
	"grad_norm": 0.8515625,
	"learning_rate": 8.484044630581057e-05,
	"loss": 1.29456005,
	"memory(GiB)": 20.09,
	"step": 495,
	"train_speed(iter/s)": 0.071401
	},
	{
	"acc": 0.67682033,
	"epoch": 1.8018018018018018,
	"grad_norm": 1.0,
	"learning_rate": 8.386449683551164e-05,
	"loss": 1.20547714,
	"memory(GiB)": 19.95,
	"step": 500,
	"train_speed(iter/s)": 0.071533
	},
	{
	"epoch": 1.8018018018018018,
	"eval_acc": 0.6413155949741316,
	"eval_loss": 1.479081630706787,
	"eval_runtime": 134.2299,
	"eval_samples_per_second": 1.125,
	"eval_steps_per_second": 0.566,
	"step": 500
	},
	{
	"acc": 0.67326751,
	"epoch": 1.8198198198198199,
	"grad_norm": 1.0546875,
	"learning_rate": 8.288489896172669e-05,
	"loss": 1.25247726,
	"memory(GiB)": 20.29,
	"step": 505,
	"train_speed(iter/s)": 0.070304
	},
	{
	"acc": 0.66375732,
	"epoch": 1.8378378378378377,
	"grad_norm": 0.9296875,
	"learning_rate": 8.190187108214514e-05,
	"loss": 1.28065901,
	"memory(GiB)": 20.04,
	"step": 510,
	"train_speed(iter/s)": 0.070438
	},
	{
	"acc": 0.69006267,
	"epoch": 1.855855855855856,
	"grad_norm": 1.0234375,
	"learning_rate": 8.091563235916343e-05,
	"loss": 1.13905525,
	"memory(GiB)": 20.03,
	"step": 515,
	"train_speed(iter/s)": 0.070569
	},
	{
	"acc": 0.69745221,
	"epoch": 1.8738738738738738,
	"grad_norm": 0.96484375,
	"learning_rate": 7.992640267102351e-05,
	"loss": 1.14712362,
	"memory(GiB)": 18.5,
	"step": 520,
	"train_speed(iter/s)": 0.070709
	},
	{
	"acc": 0.6707756,
	"epoch": 1.8918918918918919,
	"grad_norm": 1.328125,
	"learning_rate": 7.893440256279186e-05,
	"loss": 1.30717278,
	"memory(GiB)": 20.66,
	"step": 525,
	"train_speed(iter/s)": 0.07083
	},
	{
	"acc": 0.66872559,
	"epoch": 1.90990990990991,
	"grad_norm": 0.9765625,
	"learning_rate": 7.793985319718982e-05,
	"loss": 1.28408003,
	"memory(GiB)": 19.48,
	"step": 530,
	"train_speed(iter/s)": 0.070948
	},
	{
	"acc": 0.68111048,
	"epoch": 1.9279279279279278,
	"grad_norm": 0.76171875,
	"learning_rate": 7.694297630528612e-05,
	"loss": 1.21391411,
	"memory(GiB)": 19.88,
	"step": 535,
	"train_speed(iter/s)": 0.071071
	},
	{
	"acc": 0.65094652,
	"epoch": 1.945945945945946,
	"grad_norm": 0.83203125,
	"learning_rate": 7.594399413706277e-05,
	"loss": 1.34138126,
	"memory(GiB)": 19.9,
	"step": 540,
	"train_speed(iter/s)": 0.071193
	},
	{
	"acc": 0.67896776,
	"epoch": 1.9639639639639639,
	"grad_norm": 0.796875,
	"learning_rate": 7.494312941186529e-05,
	"loss": 1.22575331,
	"memory(GiB)": 19.43,
	"step": 545,
	"train_speed(iter/s)": 0.071302
	},
	{
	"acc": 0.6839644,
	"epoch": 1.981981981981982,
	"grad_norm": 0.78515625,
	"learning_rate": 7.394060526874825e-05,
	"loss": 1.25017443,
	"memory(GiB)": 19.25,
	"step": 550,
	"train_speed(iter/s)": 0.07142
	},
	{
	"epoch": 1.981981981981982,
	"eval_acc": 0.645269770879527,
	"eval_loss": 1.4606801271438599,
	"eval_runtime": 134.7756,
	"eval_samples_per_second": 1.12,
	"eval_steps_per_second": 0.564,
	"step": 550
	},
	{
	"acc": 0.68771811,
	"epoch": 2.0,
	"grad_norm": 0.81640625,
	"learning_rate": 7.293664521672729e-05,
	"loss": 1.22415581,
	"memory(GiB)": 22.67,
	"step": 555,
	"train_speed(iter/s)": 0.070304
	},
	{
	"acc": 0.741537,
	"epoch": 2.018018018018018,
	"grad_norm": 0.6171875,
	"learning_rate": 7.193147308494851e-05,
	"loss": 0.95370378,
	"memory(GiB)": 19.64,
	"step": 560,
	"train_speed(iter/s)": 0.070425
	},
	{
	"acc": 0.75044699,
	"epoch": 2.036036036036036,
	"grad_norm": 1.09375,
	"learning_rate": 7.09253129727867e-05,
	"loss": 0.95568914,
	"memory(GiB)": 19.4,
	"step": 565,
	"train_speed(iter/s)": 0.070541
	},
	{
	"acc": 0.75126195,
	"epoch": 2.054054054054054,
	"grad_norm": 1.3671875,
	"learning_rate": 6.991838919988322e-05,
	"loss": 0.92719631,
	"memory(GiB)": 19.54,
	"step": 570,
	"train_speed(iter/s)": 0.070658
	},
	{
	"acc": 0.74883032,
	"epoch": 2.0720720720720722,
	"grad_norm": 1.0078125,
	"learning_rate": 6.891092625613469e-05,
	"loss": 0.92080975,
	"memory(GiB)": 20.17,
	"step": 575,
	"train_speed(iter/s)": 0.07077
	},
	{
	"acc": 0.76222944,
	"epoch": 2.09009009009009,
	"grad_norm": 0.99609375,
	"learning_rate": 6.790314875164393e-05,
	"loss": 0.88407106,
	"memory(GiB)": 19.57,
	"step": 580,
	"train_speed(iter/s)": 0.070882
	},
	{
	"acc": 0.76224823,
	"epoch": 2.108108108108108,
	"grad_norm": 1.0859375,
	"learning_rate": 6.689528136664377e-05,
	"loss": 0.85150976,
	"memory(GiB)": 19.54,
	"step": 585,
	"train_speed(iter/s)": 0.070995
	},
	{
	"acc": 0.73958569,
	"epoch": 2.126126126126126,
	"grad_norm": 1.3828125,
	"learning_rate": 6.588754880140573e-05,
	"loss": 0.92128286,
	"memory(GiB)": 19.58,
	"step": 590,
	"train_speed(iter/s)": 0.071101
	},
	{
	"acc": 0.74549003,
	"epoch": 2.144144144144144,
	"grad_norm": 1.359375,
	"learning_rate": 6.488017572614363e-05,
	"loss": 0.90851021,
	"memory(GiB)": 18.59,
	"step": 595,
	"train_speed(iter/s)": 0.071211
	},
	{
	"acc": 0.73912826,
	"epoch": 2.1621621621621623,
	"grad_norm": 1.3125,
	"learning_rate": 6.387338673092443e-05,
	"loss": 0.92900734,
	"memory(GiB)": 19.54,
	"step": 600,
	"train_speed(iter/s)": 0.071321
	},
	{
	"epoch": 2.1621621621621623,
	"eval_acc": 0.6320768662232077,
	"eval_loss": 1.5818341970443726,
	"eval_runtime": 134.4691,
	"eval_samples_per_second": 1.123,
	"eval_steps_per_second": 0.565,
	"step": 600
	},
	{
	"acc": 0.75979438,
	"epoch": 2.18018018018018,
	"grad_norm": 1.09375,
	"learning_rate": 6.286740627559656e-05,
	"loss": 0.89129753,
	"memory(GiB)": 22.37,
	"step": 605,
	"train_speed(iter/s)": 0.070301
	},
	{
	"acc": 0.72820721,
	"epoch": 2.1981981981981984,
	"grad_norm": 2.15625,
	"learning_rate": 6.186245863974757e-05,
	"loss": 0.96495447,
	"memory(GiB)": 19.6,
	"step": 610,
	"train_speed(iter/s)": 0.070413
	},
	{
	"acc": 0.75764585,
	"epoch": 2.2162162162162162,
	"grad_norm": 1.0078125,
	"learning_rate": 6.0858767872701715e-05,
	"loss": 0.89218092,
	"memory(GiB)": 20.15,
	"step": 615,
	"train_speed(iter/s)": 0.070515
	},
	{
	"acc": 0.75772595,
	"epoch": 2.234234234234234,
	"grad_norm": 1.6328125,
	"learning_rate": 5.985655774356901e-05,
	"loss": 0.89191771,
	"memory(GiB)": 19.46,
	"step": 620,
	"train_speed(iter/s)": 0.070627
	},
	{
	"acc": 0.7377079,
	"epoch": 2.2522522522522523,
	"grad_norm": 1.1875,
	"learning_rate": 5.8856051691356884e-05,
	"loss": 0.94241228,
	"memory(GiB)": 19.35,
	"step": 625,
	"train_speed(iter/s)": 0.070733
	},
	{
	"acc": 0.77948771,
	"epoch": 2.27027027027027,
	"grad_norm": 1.2890625,
	"learning_rate": 5.785747277515506e-05,
	"loss": 0.79317036,
	"memory(GiB)": 20.48,
	"step": 630,
	"train_speed(iter/s)": 0.070844
	},
	{
	"acc": 0.76766949,
	"epoch": 2.2882882882882885,
	"grad_norm": 0.97265625,
	"learning_rate": 5.686104362440552e-05,
	"loss": 0.82855272,
	"memory(GiB)": 20.12,
	"step": 635,
	"train_speed(iter/s)": 0.070945
	},
	{
	"acc": 0.74998231,
	"epoch": 2.3063063063063063,
	"grad_norm": 2.9375,
	"learning_rate": 5.586698638926811e-05,
	"loss": 0.93049393,
	"memory(GiB)": 20.06,
	"step": 640,
	"train_speed(iter/s)": 0.071044
	},
	{
	"acc": 0.75094385,
	"epoch": 2.3243243243243246,
	"grad_norm": 1.1875,
	"learning_rate": 5.487552269109287e-05,
	"loss": 0.86875353,
	"memory(GiB)": 19.33,
	"step": 645,
	"train_speed(iter/s)": 0.071146
	},
	{
	"acc": 0.74836354,
	"epoch": 2.3423423423423424,
	"grad_norm": 1.1328125,
	"learning_rate": 5.388687357301051e-05,
	"loss": 0.88861446,
	"memory(GiB)": 20.11,
	"step": 650,
	"train_speed(iter/s)": 0.071249
	},
	{
	"epoch": 2.3423423423423424,
	"eval_acc": 0.630709534368071,
	"eval_loss": 1.5767972469329834,
	"eval_runtime": 134.3063,
	"eval_samples_per_second": 1.124,
	"eval_steps_per_second": 0.566,
	"step": 650
	},
	{
	"acc": 0.76697993,
	"epoch": 2.3603603603603602,
	"grad_norm": 1.2734375,
	"learning_rate": 5.290125945065162e-05,
	"loss": 0.85701361,
	"memory(GiB)": 22.96,
	"step": 655,
	"train_speed(iter/s)": 0.070324
	},
	{
	"acc": 0.76252317,
	"epoch": 2.3783783783783785,
	"grad_norm": 1.0390625,
	"learning_rate": 5.191890006300573e-05,
	"loss": 0.85787058,
	"memory(GiB)": 20.13,
	"step": 660,
	"train_speed(iter/s)": 0.070422
	},
	{
	"acc": 0.7651772,
	"epoch": 2.3963963963963963,
	"grad_norm": 1.1875,
	"learning_rate": 5.094001442343155e-05,
	"loss": 0.8521904,
	"memory(GiB)": 19.86,
	"step": 665,
	"train_speed(iter/s)": 0.070523
	},
	{
	"acc": 0.73847542,
	"epoch": 2.4144144144144146,
	"grad_norm": 1.2734375,
	"learning_rate": 4.996482077082849e-05,
	"loss": 0.95858736,
	"memory(GiB)": 19.29,
	"step": 670,
	"train_speed(iter/s)": 0.070628
	},
	{
	"acc": 0.74675932,
	"epoch": 2.4324324324324325,
	"grad_norm": 1.2734375,
	"learning_rate": 4.899353652098139e-05,
	"loss": 0.86487961,
	"memory(GiB)": 18.64,
	"step": 675,
	"train_speed(iter/s)": 0.070727
	},
	{
	"acc": 0.73309464,
	"epoch": 2.4504504504504503,
	"grad_norm": 1.8671875,
	"learning_rate": 4.802637821808819e-05,
	"loss": 0.93775883,
	"memory(GiB)": 19.78,
	"step": 680,
	"train_speed(iter/s)": 0.070825
	},
	{
	"acc": 0.76575212,
	"epoch": 2.4684684684684686,
	"grad_norm": 1.03125,
	"learning_rate": 4.706356148648246e-05,
	"loss": 0.8259285,
	"memory(GiB)": 19.9,
	"step": 685,
	"train_speed(iter/s)": 0.07092
	},
	{
	"acc": 0.76865396,
	"epoch": 2.4864864864864864,
	"grad_norm": 1.3125,
	"learning_rate": 4.6105300982560625e-05,
	"loss": 0.84868517,
	"memory(GiB)": 19.19,
	"step": 690,
	"train_speed(iter/s)": 0.071014
	},
	{
	"acc": 0.75694928,
	"epoch": 2.5045045045045047,
	"grad_norm": 1.03125,
	"learning_rate": 4.515181034692515e-05,
	"loss": 0.87043924,
	"memory(GiB)": 19.95,
	"step": 695,
	"train_speed(iter/s)": 0.071105
	},
	{
	"acc": 0.75771561,
	"epoch": 2.5225225225225225,
	"grad_norm": 1.3515625,
	"learning_rate": 4.420330215675415e-05,
	"loss": 0.86245804,
	"memory(GiB)": 19.18,
	"step": 700,
	"train_speed(iter/s)": 0.071194
	},
	{
	"epoch": 2.5225225225225225,
	"eval_acc": 0.6335181079083518,
	"eval_loss": 1.5894646644592285,
	"eval_runtime": 134.225,
	"eval_samples_per_second": 1.125,
	"eval_steps_per_second": 0.566,
	"step": 700
	},
	{
	"acc": 0.76191721,
	"epoch": 2.5405405405405403,
	"grad_norm": 1.71875,
	"learning_rate": 4.325998787840818e-05,
	"loss": 0.85848246,
	"memory(GiB)": 19.14,
	"step": 705,
	"train_speed(iter/s)": 0.070324
	},
	{
	"acc": 0.76571012,
	"epoch": 2.5585585585585586,
	"grad_norm": 1.15625,
	"learning_rate": 4.2322077820284477e-05,
	"loss": 0.85979414,
	"memory(GiB)": 20.01,
	"step": 710,
	"train_speed(iter/s)": 0.070422
	},
	{
	"acc": 0.73852654,
	"epoch": 2.5765765765765765,
	"grad_norm": 1.6484375,
	"learning_rate": 4.138978108592962e-05,
	"loss": 0.90148897,
	"memory(GiB)": 19.05,
	"step": 715,
	"train_speed(iter/s)": 0.070518
	},
	{
	"acc": 0.76960816,
	"epoch": 2.5945945945945947,
	"grad_norm": 3.71875,
	"learning_rate": 4.046330552742053e-05,
	"loss": 0.88053255,
	"memory(GiB)": 19.25,
	"step": 720,
	"train_speed(iter/s)": 0.070616
	},
	{
	"acc": 0.77552128,
	"epoch": 2.6126126126126126,
	"grad_norm": 0.96484375,
	"learning_rate": 3.954285769902474e-05,
	"loss": 0.83608866,
	"memory(GiB)": 19.96,
	"step": 725,
	"train_speed(iter/s)": 0.070707
	},
	{
	"acc": 0.76034231,
	"epoch": 2.6306306306306304,
	"grad_norm": 1.078125,
	"learning_rate": 3.8628642811149894e-05,
	"loss": 0.84258709,
	"memory(GiB)": 19.75,
	"step": 730,
	"train_speed(iter/s)": 0.070796
	},
	{
	"acc": 0.73506665,
	"epoch": 2.6486486486486487,
	"grad_norm": 2.125,
	"learning_rate": 3.772086468459271e-05,
	"loss": 0.96418314,
	"memory(GiB)": 19.94,
	"step": 735,
	"train_speed(iter/s)": 0.070887
	},
	{
	"acc": 0.74339218,
	"epoch": 2.6666666666666665,
	"grad_norm": 1.3359375,
	"learning_rate": 3.6819725705098094e-05,
	"loss": 0.94632616,
	"memory(GiB)": 19.98,
	"step": 740,
	"train_speed(iter/s)": 0.070978
	},
	{
	"acc": 0.75258017,
	"epoch": 2.684684684684685,
	"grad_norm": 1.328125,
	"learning_rate": 3.592542677823787e-05,
	"loss": 0.89630384,
	"memory(GiB)": 19.9,
	"step": 745,
	"train_speed(iter/s)": 0.071065
	},
	{
	"acc": 0.7422905,
	"epoch": 2.7027027027027026,
	"grad_norm": 1.46875,
	"learning_rate": 3.503816728461963e-05,
	"loss": 0.92554636,
	"memory(GiB)": 19.94,
	"step": 750,
	"train_speed(iter/s)": 0.071152
	},
	{
	"epoch": 2.7027027027027026,
	"eval_acc": 0.6360679970436068,
	"eval_loss": 1.577430248260498,
	"eval_runtime": 134.0595,
	"eval_samples_per_second": 1.126,
	"eval_steps_per_second": 0.567,
	"step": 750
	},
	{
	"acc": 0.76009235,
	"epoch": 2.7207207207207205,
	"grad_norm": 1.7265625,
	"learning_rate": 3.415814503543563e-05,
	"loss": 0.89433851,
	"memory(GiB)": 19.38,
	"step": 755,
	"train_speed(iter/s)": 0.070345
	},
	{
	"acc": 0.75049233,
	"epoch": 2.7387387387387387,
	"grad_norm": 1.453125,
	"learning_rate": 3.3285556228361483e-05,
	"loss": 0.90194426,
	"memory(GiB)": 19.78,
	"step": 760,
	"train_speed(iter/s)": 0.070432
	},
	{
	"acc": 0.73652792,
	"epoch": 2.756756756756757,
	"grad_norm": 1.375,
	"learning_rate": 3.2420595403814615e-05,
	"loss": 0.94170513,
	"memory(GiB)": 19.18,
	"step": 765,
	"train_speed(iter/s)": 0.070517
	},
	{
	"acc": 0.74097948,
	"epoch": 2.774774774774775,
	"grad_norm": 1.171875,
	"learning_rate": 3.156345540158226e-05,
	"loss": 0.92526283,
	"memory(GiB)": 19.96,
	"step": 770,
	"train_speed(iter/s)": 0.070603
	},
	{
	"acc": 0.77357135,
	"epoch": 2.7927927927927927,
	"grad_norm": 1.21875,
	"learning_rate": 3.0714327317828445e-05,
	"loss": 0.84344234,
	"memory(GiB)": 19.42,
	"step": 775,
	"train_speed(iter/s)": 0.070681
	},
	{
	"acc": 0.76570077,
	"epoch": 2.810810810810811,
	"grad_norm": 1.4765625,
	"learning_rate": 2.9873400462489982e-05,
	"loss": 0.85261898,
	"memory(GiB)": 19.91,
	"step": 780,
	"train_speed(iter/s)": 0.070768
	},
	{
	"acc": 0.73979292,
	"epoch": 2.828828828828829,
	"grad_norm": 1.375,
	"learning_rate": 2.904086231707032e-05,
	"loss": 0.94777365,
	"memory(GiB)": 19.72,
	"step": 785,
	"train_speed(iter/s)": 0.07085
	},
	{
	"acc": 0.75035534,
	"epoch": 2.846846846846847,
	"grad_norm": 1.1484375,
	"learning_rate": 2.8216898492841355e-05,
	"loss": 0.88380022,
	"memory(GiB)": 19.09,
	"step": 790,
	"train_speed(iter/s)": 0.070936
	},
	{
	"acc": 0.76033754,
	"epoch": 2.864864864864865,
	"grad_norm": 1.078125,
	"learning_rate": 2.7401692689462153e-05,
	"loss": 0.84767551,
	"memory(GiB)": 20.02,
	"step": 795,
	"train_speed(iter/s)": 0.071016
	},
	{
	"acc": 0.74806399,
	"epoch": 2.8828828828828827,
	"grad_norm": 1.53125,
	"learning_rate": 2.6595426654023643e-05,
	"loss": 0.92544088,
	"memory(GiB)": 19.88,
	"step": 800,
	"train_speed(iter/s)": 0.0711
	},
	{
	"epoch": 2.8828828828828827,
	"eval_acc": 0.635920177383592,
	"eval_loss": 1.5869847536087036,
	"eval_runtime": 134.517,
	"eval_samples_per_second": 1.123,
	"eval_steps_per_second": 0.565,
	"step": 800
	}
	],
	"logging_steps": 5,
	"max_steps": 1108,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3166381763355443e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}