Training in progress, epoch 1
Browse files
log.txt
CHANGED
@@ -1,113 +1,5 @@
|
|
1 |
-
{'loss': 1.
|
2 |
-
{'loss': 1.
|
3 |
-
{'loss': 1.
|
4 |
-
{'loss': 1.
|
5 |
-
{'loss': 1.
|
6 |
-
[3 0 2 ... 1 0 0] [0 0 2 ... 0 1 0]
|
7 |
-
{'eval_loss': 1.3425624370574951, 'eval_accuracy': 0.3356442744441788, 'eval_runtime': 5.0243, 'eval_samples_per_second': 832.548, 'eval_steps_per_second': 13.136, 'epoch': 1.0}
|
8 |
-
{'loss': 1.2699, 'grad_norm': 3.673710584640503, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
|
9 |
-
{'loss': 1.1936, 'grad_norm': 4.002831935882568, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
|
10 |
-
{'loss': 1.18, 'grad_norm': 4.384771347045898, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
|
11 |
-
{'loss': 1.1671, 'grad_norm': 4.2930779457092285, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
|
12 |
-
{'loss': 1.1474, 'grad_norm': 4.147246360778809, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
|
13 |
-
{'loss': 1.1327, 'grad_norm': 3.8827412128448486, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}
|
14 |
-
[3 0 3 ... 1 2 0] [0 0 2 ... 0 1 0]
|
15 |
-
{'eval_loss': 1.4079196453094482, 'eval_accuracy': 0.3559646186947167, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.8, 'eval_steps_per_second': 12.667, 'epoch': 2.0}
|
16 |
-
{'loss': 1.0111, 'grad_norm': 7.289278984069824, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1}
|
17 |
-
{'loss': 0.922, 'grad_norm': 5.99396276473999, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28}
|
18 |
-
{'loss': 0.9247, 'grad_norm': 7.640910625457764, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45}
|
19 |
-
{'loss': 0.9288, 'grad_norm': 7.306181907653809, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63}
|
20 |
-
{'loss': 0.9135, 'grad_norm': 7.07468318939209, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8}
|
21 |
-
{'loss': 0.911, 'grad_norm': 7.503607273101807, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98}
|
22 |
-
[1 3 2 ... 2 2 0] [0 0 2 ... 0 1 0]
|
23 |
-
{'eval_loss': 1.5413333177566528, 'eval_accuracy': 0.37891465455414775, 'eval_runtime': 5.0548, 'eval_samples_per_second': 827.538, 'eval_steps_per_second': 13.057, 'epoch': 3.0}
|
24 |
-
{'loss': 0.7285, 'grad_norm': 8.317388534545898, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15}
|
25 |
-
{'loss': 0.7047, 'grad_norm': 7.8821024894714355, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33}
|
26 |
-
{'loss': 0.7098, 'grad_norm': 8.3794584274292, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5}
|
27 |
-
{'loss': 0.7054, 'grad_norm': 7.861841678619385, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68}
|
28 |
-
{'loss': 0.7139, 'grad_norm': 7.322680950164795, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85}
|
29 |
-
[0 3 2 ... 1 0 3] [0 0 2 ... 0 1 0]
|
30 |
-
{'eval_loss': 1.7088218927383423, 'eval_accuracy': 0.3942146784604351, 'eval_runtime': 4.8304, 'eval_samples_per_second': 865.981, 'eval_steps_per_second': 13.664, 'epoch': 4.0}
|
31 |
-
{'loss': 0.6896, 'grad_norm': 11.274810791015625, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03}
|
32 |
-
{'loss': 0.5212, 'grad_norm': 7.982595920562744, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2}
|
33 |
-
{'loss': 0.541, 'grad_norm': 9.061874389648438, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38}
|
34 |
-
{'loss': 0.5457, 'grad_norm': 10.760665893554688, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55}
|
35 |
-
{'loss': 0.5594, 'grad_norm': 9.166933059692383, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73}
|
36 |
-
{'loss': 0.548, 'grad_norm': 7.9511590003967285, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9}
|
37 |
-
[3 3 2 ... 2 1 0] [0 0 2 ... 0 1 0]
|
38 |
-
{'eval_loss': 1.9117132425308228, 'eval_accuracy': 0.3901506096103275, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.804, 'eval_steps_per_second': 12.667, 'epoch': 5.0}
|
39 |
-
{'loss': 0.4888, 'grad_norm': 9.013420104980469, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08}
|
40 |
-
{'loss': 0.4091, 'grad_norm': 7.150439739227295, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25}
|
41 |
-
{'loss': 0.4203, 'grad_norm': 12.627585411071777, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43}
|
42 |
-
{'loss': 0.4193, 'grad_norm': 12.276535034179688, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6}
|
43 |
-
{'loss': 0.4366, 'grad_norm': 9.403146743774414, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78}
|
44 |
-
{'loss': 0.4389, 'grad_norm': 10.061423301696777, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95}
|
45 |
-
[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
|
46 |
-
{'eval_loss': 2.1178853511810303, 'eval_accuracy': 0.39708343294286397, 'eval_runtime': 5.0462, 'eval_samples_per_second': 828.941, 'eval_steps_per_second': 13.079, 'epoch': 6.0}
|
47 |
-
{'loss': 0.345, 'grad_norm': 5.357309341430664, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13}
|
48 |
-
{'loss': 0.3185, 'grad_norm': 9.139286994934082, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3}
|
49 |
-
{'loss': 0.3268, 'grad_norm': 12.152942657470703, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48}
|
50 |
-
{'loss': 0.3392, 'grad_norm': 11.67481517791748, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65}
|
51 |
-
{'loss': 0.3422, 'grad_norm': 10.386246681213379, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83}
|
52 |
-
[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
|
53 |
-
{'eval_loss': 2.5686843395233154, 'eval_accuracy': 0.40019125029882857, 'eval_runtime': 5.2255, 'eval_samples_per_second': 800.492, 'eval_steps_per_second': 12.63, 'epoch': 7.0}
|
54 |
-
{'loss': 0.3466, 'grad_norm': 12.66191291809082, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0}
|
55 |
-
{'loss': 0.2463, 'grad_norm': 10.925546646118164, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18}
|
56 |
-
{'loss': 0.2567, 'grad_norm': 7.959372043609619, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35}
|
57 |
-
{'loss': 0.2633, 'grad_norm': 6.9901533126831055, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53}
|
58 |
-
{'loss': 0.2673, 'grad_norm': 9.302663803100586, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7}
|
59 |
-
{'loss': 0.2707, 'grad_norm': 7.5390095710754395, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88}
|
60 |
-
[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
|
61 |
-
{'eval_loss': 2.6005923748016357, 'eval_accuracy': 0.40186469041357875, 'eval_runtime': 5.0961, 'eval_samples_per_second': 820.83, 'eval_steps_per_second': 12.951, 'epoch': 8.0}
|
62 |
-
{'loss': 0.2521, 'grad_norm': 11.431685447692871, 'learning_rate': 2.3165324932913312e-05, 'epoch': 8.05}
|
63 |
-
{'loss': 0.2028, 'grad_norm': 9.693059921264648, 'learning_rate': 2.2581962431454905e-05, 'epoch': 8.23}
|
64 |
-
{'loss': 0.2121, 'grad_norm': 9.10946273803711, 'learning_rate': 2.19985999299965e-05, 'epoch': 8.4}
|
65 |
-
{'loss': 0.2177, 'grad_norm': 8.21375560760498, 'learning_rate': 2.1415237428538097e-05, 'epoch': 8.58}
|
66 |
-
{'loss': 0.2168, 'grad_norm': 10.813612937927246, 'learning_rate': 2.083187492707969e-05, 'epoch': 8.75}
|
67 |
-
{'loss': 0.2258, 'grad_norm': 13.434950828552246, 'learning_rate': 2.0248512425621283e-05, 'epoch': 8.93}
|
68 |
-
[3 3 2 ... 1 1 0] [0 0 2 ... 0 1 0]
|
69 |
-
{'eval_loss': 2.8581974506378174, 'eval_accuracy': 0.4068850107578293, 'eval_runtime': 5.0368, 'eval_samples_per_second': 830.489, 'eval_steps_per_second': 13.104, 'epoch': 9.0}
|
70 |
-
{'loss': 0.1887, 'grad_norm': 6.9538679122924805, 'learning_rate': 1.9665149924162876e-05, 'epoch': 9.1}
|
71 |
-
{'loss': 0.1698, 'grad_norm': 12.299108505249023, 'learning_rate': 1.908178742270447e-05, 'epoch': 9.28}
|
72 |
-
{'loss': 0.1803, 'grad_norm': 5.436443328857422, 'learning_rate': 1.8498424921246062e-05, 'epoch': 9.45}
|
73 |
-
{'loss': 0.1738, 'grad_norm': 13.313374519348145, 'learning_rate': 1.7915062419787655e-05, 'epoch': 9.63}
|
74 |
-
{'loss': 0.1803, 'grad_norm': 12.164106369018555, 'learning_rate': 1.733169991832925e-05, 'epoch': 9.8}
|
75 |
-
{'loss': 0.1817, 'grad_norm': 7.353409767150879, 'learning_rate': 1.6748337416870844e-05, 'epoch': 9.98}
|
76 |
-
[3 2 2 ... 1 1 0] [0 0 2 ... 0 1 0]
|
77 |
-
{'eval_loss': 3.2134830951690674, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.0478, 'eval_samples_per_second': 828.674, 'eval_steps_per_second': 13.075, 'epoch': 10.0}
|
78 |
-
{'loss': 0.1378, 'grad_norm': 11.336491584777832, 'learning_rate': 1.6164974915412437e-05, 'epoch': 10.15}
|
79 |
-
{'loss': 0.1412, 'grad_norm': 2.564628839492798, 'learning_rate': 1.5581612413954034e-05, 'epoch': 10.33}
|
80 |
-
{'loss': 0.1461, 'grad_norm': 11.924559593200684, 'learning_rate': 1.4998249912495627e-05, 'epoch': 10.5}
|
81 |
-
{'loss': 0.1509, 'grad_norm': 15.88939094543457, 'learning_rate': 1.441488741103722e-05, 'epoch': 10.68}
|
82 |
-
{'loss': 0.1506, 'grad_norm': 10.029004096984863, 'learning_rate': 1.3831524909578814e-05, 'epoch': 10.85}
|
83 |
-
[3 3 2 ... 1 2 0] [0 0 2 ... 0 1 0]
|
84 |
-
{'eval_loss': 3.263962507247925, 'eval_accuracy': 0.4073631365049008, 'eval_runtime': 5.0448, 'eval_samples_per_second': 829.174, 'eval_steps_per_second': 13.083, 'epoch': 11.0}
|
85 |
-
{'loss': 0.1472, 'grad_norm': 6.226803779602051, 'learning_rate': 1.3248162408120407e-05, 'epoch': 11.03}
|
86 |
-
{'loss': 0.1201, 'grad_norm': 7.718882083892822, 'learning_rate': 1.2664799906662e-05, 'epoch': 11.2}
|
87 |
-
{'loss': 0.1216, 'grad_norm': 11.733613014221191, 'learning_rate': 1.2081437405203595e-05, 'epoch': 11.38}
|
88 |
-
{'loss': 0.1209, 'grad_norm': 8.20969009399414, 'learning_rate': 1.1498074903745188e-05, 'epoch': 11.55}
|
89 |
-
{'loss': 0.1172, 'grad_norm': 13.481611251831055, 'learning_rate': 1.0914712402286782e-05, 'epoch': 11.73}
|
90 |
-
{'loss': 0.1285, 'grad_norm': 12.055659294128418, 'learning_rate': 1.0331349900828375e-05, 'epoch': 11.9}
|
91 |
-
[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
|
92 |
-
{'eval_loss': 3.6060633659362793, 'eval_accuracy': 0.40855845087257947, 'eval_runtime': 5.1896, 'eval_samples_per_second': 806.033, 'eval_steps_per_second': 12.718, 'epoch': 12.0}
|
93 |
-
{'loss': 0.118, 'grad_norm': 4.554361820220947, 'learning_rate': 9.74798739936997e-06, 'epoch': 12.08}
|
94 |
-
{'loss': 0.1015, 'grad_norm': 8.723073959350586, 'learning_rate': 9.164624897911563e-06, 'epoch': 12.25}
|
95 |
-
{'loss': 0.1028, 'grad_norm': 8.068249702453613, 'learning_rate': 8.581262396453156e-06, 'epoch': 12.43}
|
96 |
-
{'loss': 0.1055, 'grad_norm': 6.202993869781494, 'learning_rate': 7.99789989499475e-06, 'epoch': 12.6}
|
97 |
-
{'loss': 0.1077, 'grad_norm': 6.989070415496826, 'learning_rate': 7.414537393536344e-06, 'epoch': 12.78}
|
98 |
-
{'loss': 0.1067, 'grad_norm': 9.214164733886719, 'learning_rate': 6.831174892077938e-06, 'epoch': 12.95}
|
99 |
-
[3 3 2 ... 1 1 0] [0 0 2 ... 0 1 0]
|
100 |
-
{'eval_loss': 3.793142795562744, 'eval_accuracy': 0.4140568969639015, 'eval_runtime': 5.0458, 'eval_samples_per_second': 829.007, 'eval_steps_per_second': 13.08, 'epoch': 13.0}
|
101 |
-
{'loss': 0.0956, 'grad_norm': 15.524798393249512, 'learning_rate': 6.247812390619531e-06, 'epoch': 13.13}
|
102 |
-
{'loss': 0.0921, 'grad_norm': 13.781298637390137, 'learning_rate': 5.664449889161125e-06, 'epoch': 13.3}
|
103 |
-
{'loss': 0.0858, 'grad_norm': 13.610420227050781, 'learning_rate': 5.0810873877027185e-06, 'epoch': 13.48}
|
104 |
-
{'loss': 0.0893, 'grad_norm': 5.309872627258301, 'learning_rate': 4.497724886244312e-06, 'epoch': 13.65}
|
105 |
-
{'loss': 0.088, 'grad_norm': 10.817119598388672, 'learning_rate': 3.914362384785906e-06, 'epoch': 13.83}
|
106 |
-
[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
|
107 |
-
{'eval_loss': 4.1129608154296875, 'eval_accuracy': 0.4128615825962228, 'eval_runtime': 5.2132, 'eval_samples_per_second': 802.391, 'eval_steps_per_second': 12.66, 'epoch': 14.0}
|
108 |
-
{'loss': 0.0888, 'grad_norm': 8.123446464538574, 'learning_rate': 3.3309998833275e-06, 'epoch': 14.0}
|
109 |
-
{'loss': 0.0795, 'grad_norm': 8.229287147521973, 'learning_rate': 2.7476373818690932e-06, 'epoch': 14.18}
|
110 |
-
{'loss': 0.0775, 'grad_norm': 6.846429824829102, 'learning_rate': 2.1642748804106874e-06, 'epoch': 14.35}
|
111 |
-
{'loss': 0.0784, 'grad_norm': 11.902796745300293, 'learning_rate': 1.580912378952281e-06, 'epoch': 14.53}
|
112 |
-
{'loss': 0.0798, 'grad_norm': 7.497336387634277, 'learning_rate': 9.975498774938746e-07, 'epoch': 14.7}
|
113 |
-
{'loss': 0.0772, 'grad_norm': 9.423897743225098, 'learning_rate': 4.141873760354685e-07, 'epoch': 14.88}
|
|
|
1 |
+
{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18}
|
2 |
+
{'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35}
|
3 |
+
{'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53}
|
4 |
+
{'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7}
|
5 |
+
{'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 267829484
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:f1a085d88dcac709648bc2d0b62238541e6831bead8d1212c0b8a573224a652b
|
3 |
size 267829484
|
runs/Mar13_17-26-31_cehsc-app-001.ad.unlv.edu/events.out.tfevents.1710375994.cehsc-app-001.ad.unlv.edu.3270813.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:14bef5e9519aa1882bea4e0f7d009681aee2f713ebbc9826fa3cb9507245db9e
|
3 |
+
size 6053
|
training_args.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a7436290dd919e9698f8741c92e3cbf73242e933f76236543cc1fab7b040c02f
|
3 |
+
size 5112
|