dev7halo commited on Jan 10

Commit

08d3718

•

1 Parent(s): 47e9d88

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

config.json +28 -0
generation_config.json +7 -0
model-00001-of-00009.safetensors +3 -0
model-00002-of-00009.safetensors +3 -0
model-00003-of-00009.safetensors +3 -0
model-00004-of-00009.safetensors +3 -0
model-00005-of-00009.safetensors +3 -0
model-00006-of-00009.safetensors +3 -0
model-00007-of-00009.safetensors +3 -0
model-00008-of-00009.safetensors +3 -0
model-00009-of-00009.safetensors +3 -0
model.safetensors.index.json +442 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1209 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "upstage/SOLAR-10.7B-v1.0",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 48,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0.dev0",
+  "use_cache": false,
+  "vocab_size": 48000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.37.0.dev0",
+  "use_cache": false
+}

model-00001-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46affa46a2f8b471aa2de91bff2185c907505847d8b0031ec7f1e3220a9307c8
+size 4913763168

model-00002-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:751e66a256326ffdfd94875d356e50828f9387c094a46ac3222d65f2f809918e
+size 4999813080

model-00003-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74479fc7b333cb06ec649bf65b7b2f74655bde6d9e0a8c56d1f4cfe289444596
+size 4999813128

model-00004-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69010c81d4126c57932e517a9aef97d6c327b98fab9925e38b5c11ceb37d9bbe
+size 4832007496

model-00005-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b29c8eebd211c4b9ba520b0845e17fed7e2d642d0e54d9f9e427f78abb461f6c
+size 4999813120

model-00006-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66151da3c4f3a592a6c0616f5c4174d7be100d3352c3b760426221279de113e1
+size 4999813128

model-00007-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f20a1f6f7f281706463020c5fc9b10b3155266ee2a5a1b86fc7c36cdb79f3e4
+size 4832007496

model-00008-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04be554cd9ca52f5fd9f0b01aa5ab71e2d6e4220319a2c1518c010a3be7b286f
+size 4999813120

model-00009-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94ccc7868b330781ea117d9bb90d8c0c9e69100f29d0ed0980a5ad890c14dd42
+size 3873591000

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "metadata": {
+    "total_size": 43450384384
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00009-of-00009.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00009-of-00009.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.norm.weight": "model-00009-of-00009.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58d040b9d22a12175e893f325abd08ec832a3722ebd9e792cec3ed688eddaa2d
+size 3145730908

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cb795a5cea0baa625c50007a6c9da09c6bbb5c16b560424070384a479e7d8a6
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f19604377bd828eb366c68946ad997a4ff4d69beaeea93ee58915135768ec63
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc445c1ba8ffe0e22953e1451a5b40b24a63e58cb3282b60a7c775522279e864
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.2000363647383254,
+  "eval_steps": 500,
+  "global_step": 19800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00029999755171150014,
+      "loss": 1.6385,
+      "step": 100
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00029998908859460167,
+      "loss": 0.8837,
+      "step": 200
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00029997458076451173,
+      "loss": 0.8445,
+      "step": 300
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002999540288059106,
+      "loss": 0.8257,
+      "step": 400
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002999274335470631,
+      "loss": 0.8054,
+      "step": 500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029989479605978546,
+      "loss": 0.7917,
+      "step": 600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002998561176594015,
+      "loss": 0.7802,
+      "step": 700
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029981139990469034,
+      "loss": 0.7826,
+      "step": 800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029976064459782297,
+      "loss": 0.7833,
+      "step": 900
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002997038537842901,
+      "loss": 0.7782,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002996410297528193,
+      "loss": 0.7649,
+      "step": 1100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029957217503528326,
+      "loss": 0.7606,
+      "step": 1200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002994972924065971,
+      "loss": 0.7673,
+      "step": 1300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00029941638488460725,
+      "loss": 0.7534,
+      "step": 1400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002993294557299693,
+      "loss": 0.7711,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029923650844601677,
+      "loss": 0.7499,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029913754677862004,
+      "loss": 0.7241,
+      "step": 1700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002990325747160351,
+      "loss": 0.7471,
+      "step": 1800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029892159648874317,
+      "loss": 0.7424,
+      "step": 1900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029880461656927996,
+      "loss": 0.7413,
+      "step": 2000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002986816396720555,
+      "loss": 0.7299,
+      "step": 2100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000298552670753164,
+      "loss": 0.7102,
+      "step": 2200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00029841771501018456,
+      "loss": 0.736,
+      "step": 2300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002982767778819711,
+      "loss": 0.716,
+      "step": 2400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00029812986504843366,
+      "loss": 0.7419,
+      "step": 2500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002979769824303091,
+      "loss": 0.714,
+      "step": 2600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00029781813618892303,
+      "loss": 0.7306,
+      "step": 2700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00029765333272594065,
+      "loss": 0.7121,
+      "step": 2800
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002974825786831097,
+      "loss": 0.7107,
+      "step": 2900
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00029730588094199214,
+      "loss": 0.7332,
+      "step": 3000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002971232466236871,
+      "loss": 0.7102,
+      "step": 3100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002969346830885439,
+      "loss": 0.7205,
+      "step": 3200
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00029674019793586516,
+      "loss": 0.7113,
+      "step": 3300
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002965397990036008,
+      "loss": 0.7141,
+      "step": 3400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002963334943680322,
+      "loss": 0.7039,
+      "step": 3500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002961212923434465,
+      "loss": 0.7067,
+      "step": 3600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002959032014818015,
+      "loss": 0.7073,
+      "step": 3700
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002956792305723814,
+      "loss": 0.7113,
+      "step": 3800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00029544938864144225,
+      "loss": 0.7035,
+      "step": 3900
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00029521368495184807,
+      "loss": 0.6961,
+      "step": 4000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002949721290026979,
+      "loss": 0.6884,
+      "step": 4100
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002947247305289429,
+      "loss": 0.686,
+      "step": 4200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002944714995009936,
+      "loss": 0.6998,
+      "step": 4300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00029421244612431877,
+      "loss": 0.7003,
+      "step": 4400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00029394758083903347,
+      "loss": 0.6928,
+      "step": 4500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00029367691431947884,
+      "loss": 0.7097,
+      "step": 4600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002934004574737915,
+      "loss": 0.7065,
+      "step": 4700
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002931182214434643,
+      "loss": 0.6929,
+      "step": 4800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00029283021760289686,
+      "loss": 0.6902,
+      "step": 4900
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00029253645755893777,
+      "loss": 0.6813,
+      "step": 5000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00029223695315041615,
+      "loss": 0.682,
+      "step": 5100
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002919317164476651,
+      "loss": 0.6885,
+      "step": 5200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002916207597520349,
+      "loss": 0.6629,
+      "step": 5300
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00029130409559539747,
+      "loss": 0.7018,
+      "step": 5400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002909817367396412,
+      "loss": 0.6746,
+      "step": 5500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00029065369617615653,
+      "loss": 0.699,
+      "step": 5600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00029031998712531273,
+      "loss": 0.6768,
+      "step": 5700
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00028998062303592473,
+      "loss": 0.682,
+      "step": 5800
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00028963561758471135,
+      "loss": 0.674,
+      "step": 5900
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00028928498467574394,
+      "loss": 0.6898,
+      "step": 6000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00028892873843988637,
+      "loss": 0.6947,
+      "step": 6100
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000288566893234225,
+      "loss": 0.6751,
+      "step": 6200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00028819946364149065,
+      "loss": 0.6815,
+      "step": 6300
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002878264644694705,
+      "loss": 0.6678,
+      "step": 6400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002874479107504114,
+      "loss": 0.7046,
+      "step": 6500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002870638177404143,
+      "loss": 0.6793,
+      "step": 6600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00028667420091881896,
+      "loss": 0.6718,
+      "step": 6700
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002862790759875807,
+      "loss": 0.6744,
+      "step": 6800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00028587845887063695,
+      "loss": 0.6779,
+      "step": 6900
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00028547236571326603,
+      "loss": 0.6737,
+      "step": 7000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028506081288143617,
+      "loss": 0.6643,
+      "step": 7100
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002846438169611462,
+      "loss": 0.678,
+      "step": 7200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028422139475775673,
+      "loss": 0.6726,
+      "step": 7300
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002837935632953133,
+      "loss": 0.6779,
+      "step": 7400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00028336033981586005,
+      "loss": 0.6765,
+      "step": 7500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00028292174177874487,
+      "loss": 0.6765,
+      "step": 7600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002824777868599158,
+      "loss": 0.6804,
+      "step": 7700
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002820284929512088,
+      "loss": 0.6838,
+      "step": 7800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00028157387815962637,
+      "loss": 0.6774,
+      "step": 7900
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00028111396080660815,
+      "loss": 0.6759,
+      "step": 8000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00028064875942729236,
+      "loss": 0.6586,
+      "step": 8100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002801782927697689,
+      "loss": 0.6711,
+      "step": 8200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002797025797943237,
+      "loss": 0.6582,
+      "step": 8300
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002792216396726747,
+      "loss": 0.6516,
+      "step": 8400
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002787354917871992,
+      "loss": 0.6722,
+      "step": 8500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002782441557301526,
+      "loss": 0.6697,
+      "step": 8600
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002777476513028789,
+      "loss": 0.6678,
+      "step": 8700
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002772459985150127,
+      "loss": 0.6529,
+      "step": 8800
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00027673921758367294,
+      "loss": 0.669,
+      "step": 8900
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00027622732893264776,
+      "loss": 0.67,
+      "step": 9000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00027571035319157167,
+      "loss": 0.6703,
+      "step": 9100
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002751883111950942,
+      "loss": 0.6603,
+      "step": 9200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00027466122398203994,
+      "loss": 0.6509,
+      "step": 9300
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00027412911279456104,
+      "loss": 0.6677,
+      "step": 9400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002735919990772809,
+      "loss": 0.6593,
+      "step": 9500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002730499044764299,
+      "loss": 0.652,
+      "step": 9600
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002725028508389731,
+      "loss": 0.658,
+      "step": 9700
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00027195086021172994,
+      "loss": 0.6633,
+      "step": 9800
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002713939548404853,
+      "loss": 0.6597,
+      "step": 9900
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002708321571690937,
+      "loss": 0.6578,
+      "step": 10000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00027026548983857384,
+      "loss": 0.6624,
+      "step": 10100
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000269693975686197,
+      "loss": 0.6546,
+      "step": 10200
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002691176377445662,
+      "loss": 0.664,
+      "step": 10300
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.000268536499240688,
+      "loss": 0.6626,
+      "step": 10400
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00026795058359503675,
+      "loss": 0.6549,
+      "step": 10500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002673599144206103,
+      "loss": 0.6506,
+      "step": 10600
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002667645155219785,
+      "loss": 0.6523,
+      "step": 10700
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002661644108943241,
+      "loss": 0.6721,
+      "step": 10800
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00026555962472247537,
+      "loss": 0.653,
+      "step": 10900
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002649501813799317,
+      "loss": 0.6623,
+      "step": 11000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00026433610542788116,
+      "loss": 0.6517,
+      "step": 11100
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0002637174216142106,
+      "loss": 0.6662,
+      "step": 11200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0002630941548725086,
+      "loss": 0.6713,
+      "step": 11300
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002624663303210602,
+      "loss": 0.646,
+      "step": 11400
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.000261833973261835,
+      "loss": 0.6539,
+      "step": 11500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002611971091794672,
+      "loss": 0.6602,
+      "step": 11600
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00026055576374022855,
+      "loss": 0.6422,
+      "step": 11700
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00025990996279099424,
+      "loss": 0.6511,
+      "step": 11800
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00025925973235820096,
+      "loss": 0.6547,
+      "step": 11900
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00025860509864679795,
+      "loss": 0.6464,
+      "step": 12000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00025794608803919133,
+      "loss": 0.6591,
+      "step": 12100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00025728272709418044,
+      "loss": 0.6517,
+      "step": 12200
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00025661504254588773,
+      "loss": 0.6471,
+      "step": 12300
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0002559430613026812,
+      "loss": 0.6601,
+      "step": 12400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00025526681044609004,
+      "loss": 0.6608,
+      "step": 12500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002545863172297133,
+      "loss": 0.6448,
+      "step": 12600
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002539016090781214,
+      "loss": 0.6466,
+      "step": 12700
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002532127135857509,
+      "loss": 0.6367,
+      "step": 12800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00025251965851579245,
+      "loss": 0.6464,
+      "step": 12900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002518224717990721,
+      "loss": 0.6489,
+      "step": 13000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002511211815329253,
+      "loss": 0.6455,
+      "step": 13100
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00025041581598006475,
+      "loss": 0.6486,
+      "step": 13200
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00024970640356744144,
+      "loss": 0.6414,
+      "step": 13300
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002489929728850988,
+      "loss": 0.6455,
+      "step": 13400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00024827555268502075,
+      "loss": 0.6534,
+      "step": 13500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00024755417187997275,
+      "loss": 0.6609,
+      "step": 13600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002468288595423368,
+      "loss": 0.6415,
+      "step": 13700
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00024609964490293954,
+      "loss": 0.6583,
+      "step": 13800
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002453665573498745,
+      "loss": 0.6467,
+      "step": 13900
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002446296264273174,
+      "loss": 0.6433,
+      "step": 14000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00024388888183433577,
+      "loss": 0.6383,
+      "step": 14100
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002431443534236919,
+      "loss": 0.636,
+      "step": 14200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00024239607120063995,
+      "loss": 0.6385,
+      "step": 14300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00024164406532171628,
+      "loss": 0.6407,
+      "step": 14400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00024088836609352458,
+      "loss": 0.6344,
+      "step": 14500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00024012900397151418,
+      "loss": 0.6262,
+      "step": 14600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002393660095587529,
+      "loss": 0.6405,
+      "step": 14700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002385994136046933,
+      "loss": 0.6487,
+      "step": 14800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002378292470039341,
+      "loss": 0.6302,
+      "step": 14900
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00023705554079497446,
+      "loss": 0.6342,
+      "step": 15000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002362783261589634,
+      "loss": 0.6386,
+      "step": 15100
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00023549763441844322,
+      "loss": 0.6415,
+      "step": 15200
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00023471349703608696,
+      "loss": 0.6387,
+      "step": 15300
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002339259456134306,
+      "loss": 0.6381,
+      "step": 15400
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00023313501188959948,
+      "loss": 0.6511,
+      "step": 15500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.000232340727740029,
+      "loss": 0.6413,
+      "step": 15600
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00023154312517518024,
+      "loss": 0.6497,
+      "step": 15700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00023074223633924977,
+      "loss": 0.6515,
+      "step": 15800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00022993809350887413,
+      "loss": 0.6363,
+      "step": 15900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00022913072909182936,
+      "loss": 0.6316,
+      "step": 16000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002283201756257245,
+      "loss": 0.633,
+      "step": 16100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00022750646577669083,
+      "loss": 0.6478,
+      "step": 16200
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00022668963233806464,
+      "loss": 0.6363,
+      "step": 16300
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00022586970822906647,
+      "loss": 0.6303,
+      "step": 16400
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002250467264934738,
+      "loss": 0.6237,
+      "step": 16500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00022422072029828965,
+      "loss": 0.6181,
+      "step": 16600
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00022339172293240586,
+      "loss": 0.6164,
+      "step": 16700
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00022255976780526145,
+      "loss": 0.613,
+      "step": 16800
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002217248884454963,
+      "loss": 0.6179,
+      "step": 16900
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00022088711849959982,
+      "loss": 0.6066,
+      "step": 17000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002200464917305549,
+      "loss": 0.6081,
+      "step": 17100
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00021920304201647744,
+      "loss": 0.6057,
+      "step": 17200
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00021835680334925087,
+      "loss": 0.6165,
+      "step": 17300
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002175078098331562,
+      "loss": 0.6157,
+      "step": 17400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0002166560956834978,
+      "loss": 0.6085,
+      "step": 17500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00021580169522522424,
+      "loss": 0.615,
+      "step": 17600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00021494464289154505,
+      "loss": 0.6119,
+      "step": 17700
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0002140849732225431,
+      "loss": 0.6097,
+      "step": 17800
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0002132227208637826,
+      "loss": 0.6155,
+      "step": 17900
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0002123579205649126,
+      "loss": 0.6066,
+      "step": 18000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00021149060717826694,
+      "loss": 0.6001,
+      "step": 18100
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00021062081565745928,
+      "loss": 0.6068,
+      "step": 18200
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0002097485810559748,
+      "loss": 0.6131,
+      "step": 18300
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00020887393852575716,
+      "loss": 0.612,
+      "step": 18400
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00020799692331579213,
+      "loss": 0.6051,
+      "step": 18500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00020711757077068675,
+      "loss": 0.6145,
+      "step": 18600
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00020623591632924515,
+      "loss": 0.6077,
+      "step": 18700
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00020535199552304033,
+      "loss": 0.6005,
+      "step": 18800
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00020446584397498178,
+      "loss": 0.6178,
+      "step": 18900
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00020357749739788054,
+      "loss": 0.6038,
+      "step": 19000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00020268699159300927,
+      "loss": 0.5974,
+      "step": 19100
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00020179436244865986,
+      "loss": 0.6136,
+      "step": 19200
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00020089964593869694,
+      "loss": 0.6098,
+      "step": 19300
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00020000287812110793,
+      "loss": 0.6127,
+      "step": 19400
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00019910409513655038,
+      "loss": 0.6073,
+      "step": 19500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00019820333320689473,
+      "loss": 0.6008,
+      "step": 19600
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00019730062863376524,
+      "loss": 0.6124,
+      "step": 19700
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00019639601779707655,
+      "loss": 0.6144,
+      "step": 19800
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 49497,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 1.5570362986194272e+19,
+  "train_batch_size": 3,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06b69a8cf86dc7a8d81fb728f5c5ad8d1b0df810efcce203a65df8cd25701763
+size 4664