Model save

Browse files

Files changed (8) hide show

README.md +66 -0
generation_config.json +6 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +796 -0
trainer_state.json +2862 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+base_model: muhtasham/MiniCPM-V-2_6_ft_20240908_220534
+tags:
+- generated_from_trainer
+model-index:
+- name: MiniCPM-V-2_6_ft_20240908_220534_ft_upsampled_new
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# MiniCPM-V-2_6_ft_20240908_220534_ft_upsampled_new
+This model is a fine-tuned version of [muhtasham/MiniCPM-V-2_6_ft_20240908_220534](https://huggingface.co/muhtasham/MiniCPM-V-2_6_ft_20240908_220534) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3034
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.99) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 10000
+- mixed_precision_training: Native AMP
+- label_smoothing_factor: 0.1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.0349        | 0.7055 | 100  | 0.2220          |
+| 0.0435        | 1.4109 | 200  | 0.2660          |
+| 0.02          | 2.1164 | 300  | 0.2626          |
+| 0.0204        | 2.8219 | 400  | 0.3034          |
+### Framework versions
+- Transformers 4.40.0
+- Pytorch 2.1.2+cu121
+- Tokenizers 0.19.1

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "transformers_version": "4.40.0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b62cc1834141103927647e37fd30d2601718b8dd21b12208cbbfc641be651df
+size 4874808224

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54119fa2d5c0d502b814b18ab163045c5a667366db95117776f1b95eca179f2b
+size 4932751376

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:987b65ab3c049e6f1f036e1fb65378c0f524b88f33a579969cd88fa848e92643
+size 4330865536

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55e131f397a4fd9aaac4b4e4c7f13f251bba45a5b730597b76b7c2ed4c62115b
+size 2060016624

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,796 @@

+{
+  "metadata": {
+    "total_size": 16198350304
+  },
+  "weight_map": {
+    "llm.lm_head.weight": "model-00004-of-00004.safetensors",
+    "llm.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.norm.weight": "model-00003-of-00004.safetensors",
+    "resampler.attn.in_proj_bias": "model-00004-of-00004.safetensors",
+    "resampler.attn.in_proj_weight": "model-00004-of-00004.safetensors",
+    "resampler.attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "resampler.attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "resampler.kv_proj.weight": "model-00004-of-00004.safetensors",
+    "resampler.ln_kv.bias": "model-00004-of-00004.safetensors",
+    "resampler.ln_kv.weight": "model-00004-of-00004.safetensors",
+    "resampler.ln_post.bias": "model-00004-of-00004.safetensors",
+    "resampler.ln_post.weight": "model-00004-of-00004.safetensors",
+    "resampler.ln_q.bias": "model-00004-of-00004.safetensors",
+    "resampler.ln_q.weight": "model-00004-of-00004.safetensors",
+    "resampler.proj": "model-00004-of-00004.safetensors",
+    "resampler.query": "model-00004-of-00004.safetensors",
+    "vpm.embeddings.patch_embedding.bias": "model-00004-of-00004.safetensors",
+    "vpm.embeddings.patch_embedding.weight": "model-00004-of-00004.safetensors",
+    "vpm.embeddings.position_embedding.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.0.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.1.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.10.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.11.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.12.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.13.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.14.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.15.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.16.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.17.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.18.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.19.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.2.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.20.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.21.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.3.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.4.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.5.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.6.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.7.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.8.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vpm.encoder.layers.9.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vpm.post_layernorm.bias": "model-00004-of-00004.safetensors",
+    "vpm.post_layernorm.weight": "model-00004-of-00004.safetensors"
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2862 @@

+{
+  "best_metric": 0.22200879454612732,
+  "best_model_checkpoint": "output/output_minicpmv26_upsampled_new/checkpoint-100",
+  "epoch": 2.821869488536155,
+  "eval_steps": 100,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007054673721340388,
+      "grad_norm": 1.6801574230194092,
+      "learning_rate": 0.0,
+      "loss": 0.302,
+      "step": 1
+    },
+    {
+      "epoch": 0.014109347442680775,
+      "grad_norm": 1.6801574230194092,
+      "learning_rate": 0.0,
+      "loss": 0.6048,
+      "step": 2
+    },
+    {
+      "epoch": 0.021164021164021163,
+      "grad_norm": 1.6801574230194092,
+      "learning_rate": 0.0,
+      "loss": 0.6328,
+      "step": 3
+    },
+    {
+      "epoch": 0.02821869488536155,
+      "grad_norm": 5.175243377685547,
+      "learning_rate": 5.017166594399687e-06,
+      "loss": 0.6277,
+      "step": 4
+    },
+    {
+      "epoch": 0.03527336860670194,
+      "grad_norm": 5.2468085289001465,
+      "learning_rate": 7.952020911994375e-06,
+      "loss": 0.569,
+      "step": 5
+    },
+    {
+      "epoch": 0.042328042328042326,
+      "grad_norm": 3.1532468795776367,
+      "learning_rate": 1.0034333188799373e-05,
+      "loss": 0.4483,
+      "step": 6
+    },
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 2.239643096923828,
+      "learning_rate": 1.164950007226698e-05,
+      "loss": 0.2535,
+      "step": 7
+    },
+    {
+      "epoch": 0.0564373897707231,
+      "grad_norm": 1.6188478469848633,
+      "learning_rate": 1.2969187506394062e-05,
+      "loss": 0.3263,
+      "step": 8
+    },
+    {
+      "epoch": 0.06349206349206349,
+      "grad_norm": 1.5941171646118164,
+      "learning_rate": 1.4084967333570947e-05,
+      "loss": 0.2719,
+      "step": 9
+    },
+    {
+      "epoch": 0.07054673721340388,
+      "grad_norm": 2.198554039001465,
+      "learning_rate": 1.505149978319906e-05,
+      "loss": 0.2925,
+      "step": 10
+    },
+    {
+      "epoch": 0.07760141093474426,
+      "grad_norm": 1.4477227926254272,
+      "learning_rate": 1.590404182398875e-05,
+      "loss": 0.2046,
+      "step": 11
+    },
+    {
+      "epoch": 0.08465608465608465,
+      "grad_norm": 1.196413278579712,
+      "learning_rate": 1.666666666666667e-05,
+      "loss": 0.1979,
+      "step": 12
+    },
+    {
+      "epoch": 0.09171075837742504,
+      "grad_norm": 1.5520116090774536,
+      "learning_rate": 1.7356544752637084e-05,
+      "loss": 0.2322,
+      "step": 13
+    },
+    {
+      "epoch": 0.09876543209876543,
+      "grad_norm": 1.1696501970291138,
+      "learning_rate": 1.7986354100793748e-05,
+      "loss": 0.2485,
+      "step": 14
+    },
+    {
+      "epoch": 0.10582010582010581,
+      "grad_norm": 1.172625184059143,
+      "learning_rate": 1.8565722538447282e-05,
+      "loss": 0.1389,
+      "step": 15
+    },
+    {
+      "epoch": 0.1128747795414462,
+      "grad_norm": 1.0148265361785889,
+      "learning_rate": 1.9102133927970633e-05,
+      "loss": 0.1329,
+      "step": 16
+    },
+    {
+      "epoch": 0.11992945326278659,
+      "grad_norm": 1.0606085062026978,
+      "learning_rate": 1.9601520984261358e-05,
+      "loss": 0.2202,
+      "step": 17
+    },
+    {
+      "epoch": 0.12698412698412698,
+      "grad_norm": 0.9954428672790527,
+      "learning_rate": 2.0068666377598747e-05,
+      "loss": 0.1762,
+      "step": 18
+    },
+    {
+      "epoch": 0.13403880070546736,
+      "grad_norm": 0.918416440486908,
+      "learning_rate": 2.0507482022971233e-05,
+      "loss": 0.1175,
+      "step": 19
+    },
+    {
+      "epoch": 0.14109347442680775,
+      "grad_norm": 0.8776475191116333,
+      "learning_rate": 2.0921208418388435e-05,
+      "loss": 0.1791,
+      "step": 20
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 1.228663682937622,
+      "learning_rate": 2.1312560015880482e-05,
+      "loss": 0.195,
+      "step": 21
+    },
+    {
+      "epoch": 0.15520282186948853,
+      "grad_norm": 0.999839723110199,
+      "learning_rate": 2.1683833261066357e-05,
+      "loss": 0.2305,
+      "step": 22
+    },
+    {
+      "epoch": 0.16225749559082892,
+      "grad_norm": 1.4857021570205688,
+      "learning_rate": 2.2036988245565324e-05,
+      "loss": 0.2297,
+      "step": 23
+    },
+    {
+      "epoch": 0.1693121693121693,
+      "grad_norm": 0.9725483655929565,
+      "learning_rate": 2.2373711347036773e-05,
+      "loss": 0.1334,
+      "step": 24
+    },
+    {
+      "epoch": 0.1763668430335097,
+      "grad_norm": 1.1450296640396118,
+      "learning_rate": 2.269546393362655e-05,
+      "loss": 0.1456,
+      "step": 25
+    },
+    {
+      "epoch": 0.18342151675485008,
+      "grad_norm": 0.9552989602088928,
+      "learning_rate": 2.3003520695193437e-05,
+      "loss": 0.1589,
+      "step": 26
+    },
+    {
+      "epoch": 0.19047619047619047,
+      "grad_norm": 0.8792590498924255,
+      "learning_rate": 2.329900014453396e-05,
+      "loss": 0.1554,
+      "step": 27
+    },
+    {
+      "epoch": 0.19753086419753085,
+      "grad_norm": 0.9049666523933411,
+      "learning_rate": 2.3582889132846968e-05,
+      "loss": 0.1716,
+      "step": 28
+    },
+    {
+      "epoch": 0.20458553791887124,
+      "grad_norm": 0.9107133746147156,
+      "learning_rate": 2.3856062735983123e-05,
+      "loss": 0.1428,
+      "step": 29
+    },
+    {
+      "epoch": 0.21164021164021163,
+      "grad_norm": 1.2052390575408936,
+      "learning_rate": 2.4119300522370322e-05,
+      "loss": 0.0895,
+      "step": 30
+    },
+    {
+      "epoch": 0.21869488536155202,
+      "grad_norm": 0.8711329698562622,
+      "learning_rate": 2.4373299964982603e-05,
+      "loss": 0.1179,
+      "step": 31
+    },
+    {
+      "epoch": 0.2257495590828924,
+      "grad_norm": 0.9174087047576904,
+      "learning_rate": 2.4618687578661044e-05,
+      "loss": 0.1514,
+      "step": 32
+    },
+    {
+      "epoch": 0.2328042328042328,
+      "grad_norm": 0.8083134293556213,
+      "learning_rate": 2.4856028230571212e-05,
+      "loss": 0.125,
+      "step": 33
+    },
+    {
+      "epoch": 0.23985890652557318,
+      "grad_norm": 1.2985553741455078,
+      "learning_rate": 2.5085832971998436e-05,
+      "loss": 0.1992,
+      "step": 34
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 1.0799403190612793,
+      "learning_rate": 2.530856566463146e-05,
+      "loss": 0.1456,
+      "step": 35
+    },
+    {
+      "epoch": 0.25396825396825395,
+      "grad_norm": 1.2140672206878662,
+      "learning_rate": 2.552464861737092e-05,
+      "loss": 0.0722,
+      "step": 36
+    },
+    {
+      "epoch": 0.26102292768959434,
+      "grad_norm": 0.8151078820228577,
+      "learning_rate": 2.5734467405837933e-05,
+      "loss": 0.0777,
+      "step": 37
+    },
+    {
+      "epoch": 0.26807760141093473,
+      "grad_norm": 0.8580430150032043,
+      "learning_rate": 2.5938375012788124e-05,
+      "loss": 0.0929,
+      "step": 38
+    },
+    {
+      "epoch": 0.2751322751322751,
+      "grad_norm": 0.6314868330955505,
+      "learning_rate": 2.6136695401116585e-05,
+      "loss": 0.0749,
+      "step": 39
+    },
+    {
+      "epoch": 0.2821869488536155,
+      "grad_norm": 0.7801815271377563,
+      "learning_rate": 2.6329726610280168e-05,
+      "loss": 0.0835,
+      "step": 40
+    },
+    {
+      "epoch": 0.2892416225749559,
+      "grad_norm": 0.6293598413467407,
+      "learning_rate": 2.651774345044166e-05,
+      "loss": 0.0946,
+      "step": 41
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 1.1139250993728638,
+      "learning_rate": 2.6700999855466042e-05,
+      "loss": 0.0642,
+      "step": 42
+    },
+    {
+      "epoch": 0.30335097001763667,
+      "grad_norm": 0.7656267285346985,
+      "learning_rate": 2.687973094532893e-05,
+      "loss": 0.0575,
+      "step": 43
+    },
+    {
+      "epoch": 0.31040564373897706,
+      "grad_norm": 1.263577938079834,
+      "learning_rate": 2.7054154839965013e-05,
+      "loss": 0.1556,
+      "step": 44
+    },
+    {
+      "epoch": 0.31746031746031744,
+      "grad_norm": 0.8415663838386536,
+      "learning_rate": 2.722447425965978e-05,
+      "loss": 0.1244,
+      "step": 45
+    },
+    {
+      "epoch": 0.32451499118165783,
+      "grad_norm": 0.8434031009674072,
+      "learning_rate": 2.739087794143646e-05,
+      "loss": 0.0585,
+      "step": 46
+    },
+    {
+      "epoch": 0.3315696649029982,
+      "grad_norm": 0.8752081394195557,
+      "learning_rate": 2.755354189625573e-05,
+      "loss": 0.0888,
+      "step": 47
+    },
+    {
+      "epoch": 0.3386243386243386,
+      "grad_norm": 0.7323986291885376,
+      "learning_rate": 2.771263052802624e-05,
+      "loss": 0.0658,
+      "step": 48
+    },
+    {
+      "epoch": 0.345679012345679,
+      "grad_norm": 0.7197067141532898,
+      "learning_rate": 2.7868297632261957e-05,
+      "loss": 0.0708,
+      "step": 49
+    },
+    {
+      "epoch": 0.3527336860670194,
+      "grad_norm": 0.7956255078315735,
+      "learning_rate": 2.8020687289593123e-05,
+      "loss": 0.0858,
+      "step": 50
+    },
+    {
+      "epoch": 0.35978835978835977,
+      "grad_norm": 0.7490425109863281,
+      "learning_rate": 2.8169934667141895e-05,
+      "loss": 0.0764,
+      "step": 51
+    },
+    {
+      "epoch": 0.36684303350970016,
+      "grad_norm": 0.5713589191436768,
+      "learning_rate": 2.8316166738933646e-05,
+      "loss": 0.0706,
+      "step": 52
+    },
+    {
+      "epoch": 0.37389770723104054,
+      "grad_norm": 0.6174349188804626,
+      "learning_rate": 2.845950293496561e-05,
+      "loss": 0.0372,
+      "step": 53
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.9179003834724426,
+      "learning_rate": 2.8600055727246657e-05,
+      "loss": 0.0812,
+      "step": 54
+    },
+    {
+      "epoch": 0.3880070546737213,
+      "grad_norm": 0.5890799760818481,
+      "learning_rate": 2.8737931160013153e-05,
+      "loss": 0.0524,
+      "step": 55
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 0.8446977734565735,
+      "learning_rate": 2.8873229330382812e-05,
+      "loss": 0.14,
+      "step": 56
+    },
+    {
+      "epoch": 0.4021164021164021,
+      "grad_norm": 0.7590024471282959,
+      "learning_rate": 2.9006044824904066e-05,
+      "loss": 0.0908,
+      "step": 57
+    },
+    {
+      "epoch": 0.4091710758377425,
+      "grad_norm": 0.7498160600662231,
+      "learning_rate": 2.913646711677001e-05,
+      "loss": 0.0903,
+      "step": 58
+    },
+    {
+      "epoch": 0.41622574955908287,
+      "grad_norm": 0.6221739649772644,
+      "learning_rate": 2.926458092787486e-05,
+      "loss": 0.0813,
+      "step": 59
+    },
+    {
+      "epoch": 0.42328042328042326,
+      "grad_norm": 0.6228092908859253,
+      "learning_rate": 2.939046655938229e-05,
+      "loss": 0.0656,
+      "step": 60
+    },
+    {
+      "epoch": 0.43033509700176364,
+      "grad_norm": 0.8543663024902344,
+      "learning_rate": 2.951420019403574e-05,
+      "loss": 0.1006,
+      "step": 61
+    },
+    {
+      "epoch": 0.43738977072310403,
+      "grad_norm": 0.7968020439147949,
+      "learning_rate": 2.963585417306073e-05,
+      "loss": 0.0621,
+      "step": 62
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 1.0612839460372925,
+      "learning_rate": 2.9755497250179453e-05,
+      "loss": 0.0834,
+      "step": 63
+    },
+    {
+      "epoch": 0.4514991181657848,
+      "grad_norm": 1.0608887672424316,
+      "learning_rate": 2.98731948249709e-05,
+      "loss": 0.1091,
+      "step": 64
+    },
+    {
+      "epoch": 0.4585537918871252,
+      "grad_norm": 0.8623563051223755,
+      "learning_rate": 2.9989009157559694e-05,
+      "loss": 0.1079,
+      "step": 65
+    },
+    {
+      "epoch": 0.4656084656084656,
+      "grad_norm": 0.6711964011192322,
+      "learning_rate": 3.010299956639812e-05,
+      "loss": 0.1042,
+      "step": 66
+    },
+    {
+      "epoch": 0.47266313932980597,
+      "grad_norm": 0.6842482089996338,
+      "learning_rate": 3.021522261071426e-05,
+      "loss": 0.0417,
+      "step": 67
+    },
+    {
+      "epoch": 0.47971781305114636,
+      "grad_norm": 0.5719308257102966,
+      "learning_rate": 3.0325732259031143e-05,
+      "loss": 0.054,
+      "step": 68
+    },
+    {
+      "epoch": 0.48677248677248675,
+      "grad_norm": 0.8470659255981445,
+      "learning_rate": 3.043458004501377e-05,
+      "loss": 0.0397,
+      "step": 69
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.6628620028495789,
+      "learning_rate": 3.054181521177061e-05,
+      "loss": 0.0622,
+      "step": 70
+    },
+    {
+      "epoch": 0.5008818342151675,
+      "grad_norm": 0.42102503776550293,
+      "learning_rate": 3.064748484562093e-05,
+      "loss": 0.0233,
+      "step": 71
+    },
+    {
+      "epoch": 0.5079365079365079,
+      "grad_norm": 0.8417813181877136,
+      "learning_rate": 3.0751634000237615e-05,
+      "loss": 0.1027,
+      "step": 72
+    },
+    {
+      "epoch": 0.5149911816578483,
+      "grad_norm": 0.6327218413352966,
+      "learning_rate": 3.085430581198459e-05,
+      "loss": 0.0588,
+      "step": 73
+    },
+    {
+      "epoch": 0.5220458553791887,
+      "grad_norm": 0.5988758206367493,
+      "learning_rate": 3.095554160718781e-05,
+      "loss": 0.0294,
+      "step": 74
+    },
+    {
+      "epoch": 0.5291005291005291,
+      "grad_norm": 0.6376883387565613,
+      "learning_rate": 3.10553810020076e-05,
+      "loss": 0.061,
+      "step": 75
+    },
+    {
+      "epoch": 0.5361552028218695,
+      "grad_norm": 0.5831305384635925,
+      "learning_rate": 3.115386199551628e-05,
+      "loss": 0.0579,
+      "step": 76
+    },
+    {
+      "epoch": 0.5432098765432098,
+      "grad_norm": 0.9941970109939575,
+      "learning_rate": 3.1251021056528336e-05,
+      "loss": 0.0773,
+      "step": 77
+    },
+    {
+      "epoch": 0.5502645502645502,
+      "grad_norm": 0.712217390537262,
+      "learning_rate": 3.134689320467986e-05,
+      "loss": 0.0675,
+      "step": 78
+    },
+    {
+      "epoch": 0.5573192239858906,
+      "grad_norm": 0.6384962201118469,
+      "learning_rate": 3.144151208620804e-05,
+      "loss": 0.0637,
+      "step": 79
+    },
+    {
+      "epoch": 0.564373897707231,
+      "grad_norm": 0.804009199142456,
+      "learning_rate": 3.1534910044841344e-05,
+      "loss": 0.0574,
+      "step": 80
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.606472909450531,
+      "learning_rate": 3.1627118188174024e-05,
+      "loss": 0.0599,
+      "step": 81
+    },
+    {
+      "epoch": 0.5784832451499118,
+      "grad_norm": 0.6898069977760315,
+      "learning_rate": 3.171816644986573e-05,
+      "loss": 0.0744,
+      "step": 82
+    },
+    {
+      "epoch": 0.5855379188712522,
+      "grad_norm": 0.5865432024002075,
+      "learning_rate": 3.18080836479775e-05,
+      "loss": 0.0458,
+      "step": 83
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.7742403149604797,
+      "learning_rate": 3.1896897539728616e-05,
+      "loss": 0.0401,
+      "step": 84
+    },
+    {
+      "epoch": 0.599647266313933,
+      "grad_norm": 0.9450638890266418,
+      "learning_rate": 3.198463487293457e-05,
+      "loss": 0.0591,
+      "step": 85
+    },
+    {
+      "epoch": 0.6067019400352733,
+      "grad_norm": 0.6740131378173828,
+      "learning_rate": 3.207132143436469e-05,
+      "loss": 0.0606,
+      "step": 86
+    },
+    {
+      "epoch": 0.6137566137566137,
+      "grad_norm": 0.6818442344665527,
+      "learning_rate": 3.215698209523821e-05,
+      "loss": 0.0582,
+      "step": 87
+    },
+    {
+      "epoch": 0.6208112874779541,
+      "grad_norm": 0.6413015723228455,
+      "learning_rate": 3.224164085405946e-05,
+      "loss": 0.0654,
+      "step": 88
+    },
+    {
+      "epoch": 0.6278659611992945,
+      "grad_norm": 0.6277798414230347,
+      "learning_rate": 3.232532087697698e-05,
+      "loss": 0.0359,
+      "step": 89
+    },
+    {
+      "epoch": 0.6349206349206349,
+      "grad_norm": 0.9701242446899414,
+      "learning_rate": 3.240804453583615e-05,
+      "loss": 0.0346,
+      "step": 90
+    },
+    {
+      "epoch": 0.6419753086419753,
+      "grad_norm": 0.5861459374427795,
+      "learning_rate": 3.248983344408188e-05,
+      "loss": 0.045,
+      "step": 91
+    },
+    {
+      "epoch": 0.6490299823633157,
+      "grad_norm": 0.6812423467636108,
+      "learning_rate": 3.2570708490655414e-05,
+      "loss": 0.0741,
+      "step": 92
+    },
+    {
+      "epoch": 0.656084656084656,
+      "grad_norm": 0.6713656187057495,
+      "learning_rate": 3.265068987201822e-05,
+      "loss": 0.0762,
+      "step": 93
+    },
+    {
+      "epoch": 0.6631393298059964,
+      "grad_norm": 3.140953779220581,
+      "learning_rate": 3.2729797122425925e-05,
+      "loss": 0.0323,
+      "step": 94
+    },
+    {
+      "epoch": 0.6701940035273368,
+      "grad_norm": 0.5071882605552673,
+      "learning_rate": 3.280804914256559e-05,
+      "loss": 0.0289,
+      "step": 95
+    },
+    {
+      "epoch": 0.6772486772486772,
+      "grad_norm": 0.779321551322937,
+      "learning_rate": 3.288546422666164e-05,
+      "loss": 0.1021,
+      "step": 96
+    },
+    {
+      "epoch": 0.6843033509700176,
+      "grad_norm": 0.6520841717720032,
+      "learning_rate": 3.2962060088147464e-05,
+      "loss": 0.0206,
+      "step": 97
+    },
+    {
+      "epoch": 0.691358024691358,
+      "grad_norm": 0.46021828055381775,
+      "learning_rate": 3.3037853883992805e-05,
+      "loss": 0.026,
+      "step": 98
+    },
+    {
+      "epoch": 0.6984126984126984,
+      "grad_norm": 0.5235745310783386,
+      "learning_rate": 3.3112862237770756e-05,
+      "loss": 0.0388,
+      "step": 99
+    },
+    {
+      "epoch": 0.7054673721340388,
+      "grad_norm": 0.6948632001876831,
+      "learning_rate": 3.3187101261541584e-05,
+      "loss": 0.0349,
+      "step": 100
+    },
+    {
+      "epoch": 0.7054673721340388,
+      "eval_loss": 0.22200879454612732,
+      "eval_runtime": 349.6846,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.406,
+      "step": 100
+    },
+    {
+      "epoch": 0.7125220458553791,
+      "grad_norm": 0.6536000967025757,
+      "learning_rate": 3.326058657662584e-05,
+      "loss": 0.0705,
+      "step": 101
+    },
+    {
+      "epoch": 0.7195767195767195,
+      "grad_norm": 0.5648466944694519,
+      "learning_rate": 3.333333333333334e-05,
+      "loss": 0.0335,
+      "step": 102
+    },
+    {
+      "epoch": 0.7266313932980599,
+      "grad_norm": 1.2128064632415771,
+      "learning_rate": 3.340535622971072e-05,
+      "loss": 0.0279,
+      "step": 103
+    },
+    {
+      "epoch": 0.7336860670194003,
+      "grad_norm": 0.44416865706443787,
+      "learning_rate": 3.3476669529365295e-05,
+      "loss": 0.0428,
+      "step": 104
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.7246749997138977,
+      "learning_rate": 3.3547287078419544e-05,
+      "loss": 0.0443,
+      "step": 105
+    },
+    {
+      "epoch": 0.7477954144620811,
+      "grad_norm": 0.6053627729415894,
+      "learning_rate": 3.361722232164634e-05,
+      "loss": 0.0368,
+      "step": 106
+    },
+    {
+      "epoch": 0.7548500881834215,
+      "grad_norm": 0.5114538073539734,
+      "learning_rate": 3.3686488317832306e-05,
+      "loss": 0.0288,
+      "step": 107
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "grad_norm": 0.9469549059867859,
+      "learning_rate": 3.375509775441284e-05,
+      "loss": 0.1024,
+      "step": 108
+    },
+    {
+      "epoch": 0.7689594356261023,
+      "grad_norm": 0.7715326547622681,
+      "learning_rate": 3.382306296142016e-05,
+      "loss": 0.0303,
+      "step": 109
+    },
+    {
+      "epoch": 0.7760141093474426,
+      "grad_norm": 0.6786747574806213,
+      "learning_rate": 3.38903959247825e-05,
+      "loss": 0.0514,
+      "step": 110
+    },
+    {
+      "epoch": 0.783068783068783,
+      "grad_norm": 0.8495022058486938,
+      "learning_rate": 3.395710829901039e-05,
+      "loss": 0.0337,
+      "step": 111
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 0.5682428479194641,
+      "learning_rate": 3.402321141930376e-05,
+      "loss": 0.0351,
+      "step": 112
+    },
+    {
+      "epoch": 0.7971781305114638,
+      "grad_norm": 0.989920437335968,
+      "learning_rate": 3.4088716313110955e-05,
+      "loss": 0.0424,
+      "step": 113
+    },
+    {
+      "epoch": 0.8042328042328042,
+      "grad_norm": 0.6969882845878601,
+      "learning_rate": 3.415363371116969e-05,
+      "loss": 0.0413,
+      "step": 114
+    },
+    {
+      "epoch": 0.8112874779541446,
+      "grad_norm": 0.5075703859329224,
+      "learning_rate": 3.4217974058057e-05,
+      "loss": 0.0219,
+      "step": 115
+    },
+    {
+      "epoch": 0.818342151675485,
+      "grad_norm": 0.33993738889694214,
+      "learning_rate": 3.428174752227455e-05,
+      "loss": 0.015,
+      "step": 116
+    },
+    {
+      "epoch": 0.8253968253968254,
+      "grad_norm": 0.6452199220657349,
+      "learning_rate": 3.434496400589353e-05,
+      "loss": 0.0318,
+      "step": 117
+    },
+    {
+      "epoch": 0.8324514991181657,
+      "grad_norm": 0.43750643730163574,
+      "learning_rate": 3.440763315378198e-05,
+      "loss": 0.0292,
+      "step": 118
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.5939832925796509,
+      "learning_rate": 3.446976436243603e-05,
+      "loss": 0.049,
+      "step": 119
+    },
+    {
+      "epoch": 0.8465608465608465,
+      "grad_norm": 0.5244298577308655,
+      "learning_rate": 3.4531366788435425e-05,
+      "loss": 0.0298,
+      "step": 120
+    },
+    {
+      "epoch": 0.8536155202821869,
+      "grad_norm": 1.2761309146881104,
+      "learning_rate": 3.459244935654219e-05,
+      "loss": 0.0387,
+      "step": 121
+    },
+    {
+      "epoch": 0.8606701940035273,
+      "grad_norm": 0.5901013612747192,
+      "learning_rate": 3.465302076746041e-05,
+      "loss": 0.0344,
+      "step": 122
+    },
+    {
+      "epoch": 0.8677248677248677,
+      "grad_norm": 0.7754112482070923,
+      "learning_rate": 3.471308950527417e-05,
+      "loss": 0.058,
+      "step": 123
+    },
+    {
+      "epoch": 0.8747795414462081,
+      "grad_norm": 0.9062497615814209,
+      "learning_rate": 3.477266384457914e-05,
+      "loss": 0.0547,
+      "step": 124
+    },
+    {
+      "epoch": 0.8818342151675485,
+      "grad_norm": 0.6741510629653931,
+      "learning_rate": 3.48317518573233e-05,
+      "loss": 0.0183,
+      "step": 125
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.56861412525177,
+      "learning_rate": 3.489036141937059e-05,
+      "loss": 0.0394,
+      "step": 126
+    },
+    {
+      "epoch": 0.8959435626102292,
+      "grad_norm": 0.6512686014175415,
+      "learning_rate": 3.494850021680094e-05,
+      "loss": 0.0444,
+      "step": 127
+    },
+    {
+      "epoch": 0.9029982363315696,
+      "grad_norm": 0.6218048334121704,
+      "learning_rate": 3.500617575195938e-05,
+      "loss": 0.041,
+      "step": 128
+    },
+    {
+      "epoch": 0.91005291005291,
+      "grad_norm": 0.4835250675678253,
+      "learning_rate": 3.5063395349265945e-05,
+      "loss": 0.04,
+      "step": 129
+    },
+    {
+      "epoch": 0.9171075837742504,
+      "grad_norm": 0.5520550608634949,
+      "learning_rate": 3.5120166160797804e-05,
+      "loss": 0.0293,
+      "step": 130
+    },
+    {
+      "epoch": 0.9241622574955908,
+      "grad_norm": 0.6331014037132263,
+      "learning_rate": 3.517649517165415e-05,
+      "loss": 0.0502,
+      "step": 131
+    },
+    {
+      "epoch": 0.9312169312169312,
+      "grad_norm": 0.4391537308692932,
+      "learning_rate": 3.523238920511395e-05,
+      "loss": 0.0233,
+      "step": 132
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.5481865406036377,
+      "learning_rate": 3.528785492759607e-05,
+      "loss": 0.0261,
+      "step": 133
+    },
+    {
+      "epoch": 0.9453262786596119,
+      "grad_norm": 0.5946213006973267,
+      "learning_rate": 3.5342898853430836e-05,
+      "loss": 0.0182,
+      "step": 134
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.5419771671295166,
+      "learning_rate": 3.539752734945143e-05,
+      "loss": 0.0423,
+      "step": 135
+    },
+    {
+      "epoch": 0.9594356261022927,
+      "grad_norm": 0.4333636164665222,
+      "learning_rate": 3.5451746639413466e-05,
+      "loss": 0.0307,
+      "step": 136
+    },
+    {
+      "epoch": 0.9664902998236331,
+      "grad_norm": 1.6216697692871094,
+      "learning_rate": 3.550556280825011e-05,
+      "loss": 0.0561,
+      "step": 137
+    },
+    {
+      "epoch": 0.9735449735449735,
+      "grad_norm": 0.6340786218643188,
+      "learning_rate": 3.55589818061703e-05,
+      "loss": 0.0331,
+      "step": 138
+    },
+    {
+      "epoch": 0.9805996472663139,
+      "grad_norm": 0.4583222568035126,
+      "learning_rate": 3.561200945260678e-05,
+      "loss": 0.0291,
+      "step": 139
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.4486044943332672,
+      "learning_rate": 3.5664651440020616e-05,
+      "loss": 0.0272,
+      "step": 140
+    },
+    {
+      "epoch": 0.9947089947089947,
+      "grad_norm": 0.8528138399124146,
+      "learning_rate": 3.571691333756825e-05,
+      "loss": 0.049,
+      "step": 141
+    },
+    {
+      "epoch": 1.001763668430335,
+      "grad_norm": 0.4883541166782379,
+      "learning_rate": 3.5768800594637304e-05,
+      "loss": 0.032,
+      "step": 142
+    },
+    {
+      "epoch": 1.0088183421516754,
+      "grad_norm": 0.4896632134914398,
+      "learning_rate": 3.582031854425634e-05,
+      "loss": 0.0152,
+      "step": 143
+    },
+    {
+      "epoch": 1.0158730158730158,
+      "grad_norm": 1.3984421491622925,
+      "learning_rate": 3.587147240638428e-05,
+      "loss": 0.031,
+      "step": 144
+    },
+    {
+      "epoch": 1.0229276895943562,
+      "grad_norm": 0.5898779630661011,
+      "learning_rate": 3.5922267291084366e-05,
+      "loss": 0.0375,
+      "step": 145
+    },
+    {
+      "epoch": 1.0299823633156966,
+      "grad_norm": 0.5027557611465454,
+      "learning_rate": 3.5972708201587496e-05,
+      "loss": 0.0349,
+      "step": 146
+    },
+    {
+      "epoch": 1.037037037037037,
+      "grad_norm": 0.7262934446334839,
+      "learning_rate": 3.6022800037249585e-05,
+      "loss": 0.0265,
+      "step": 147
+    },
+    {
+      "epoch": 1.0440917107583774,
+      "grad_norm": 0.5979143977165222,
+      "learning_rate": 3.607254759640729e-05,
+      "loss": 0.0215,
+      "step": 148
+    },
+    {
+      "epoch": 1.0511463844797178,
+      "grad_norm": 0.7840447425842285,
+      "learning_rate": 3.612195557913627e-05,
+      "loss": 0.0275,
+      "step": 149
+    },
+    {
+      "epoch": 1.0582010582010581,
+      "grad_norm": 0.7244076728820801,
+      "learning_rate": 3.6171028589915954e-05,
+      "loss": 0.0298,
+      "step": 150
+    },
+    {
+      "epoch": 1.0652557319223985,
+      "grad_norm": 0.35125666856765747,
+      "learning_rate": 3.6219771140204575e-05,
+      "loss": 0.0107,
+      "step": 151
+    },
+    {
+      "epoch": 1.072310405643739,
+      "grad_norm": 0.5769489407539368,
+      "learning_rate": 3.626818765092802e-05,
+      "loss": 0.0336,
+      "step": 152
+    },
+    {
+      "epoch": 1.0793650793650793,
+      "grad_norm": 0.6769897937774658,
+      "learning_rate": 3.6316282454886157e-05,
+      "loss": 0.032,
+      "step": 153
+    },
+    {
+      "epoch": 1.0864197530864197,
+      "grad_norm": 0.48454728722572327,
+      "learning_rate": 3.636405979907955e-05,
+      "loss": 0.026,
+      "step": 154
+    },
+    {
+      "epoch": 1.09347442680776,
+      "grad_norm": 0.6515180468559265,
+      "learning_rate": 3.6411523846959985e-05,
+      "loss": 0.0472,
+      "step": 155
+    },
+    {
+      "epoch": 1.1005291005291005,
+      "grad_norm": 0.39670661091804504,
+      "learning_rate": 3.645867868060772e-05,
+      "loss": 0.0223,
+      "step": 156
+    },
+    {
+      "epoch": 1.1075837742504409,
+      "grad_norm": 0.5824379920959473,
+      "learning_rate": 3.6505528302838193e-05,
+      "loss": 0.0408,
+      "step": 157
+    },
+    {
+      "epoch": 1.1146384479717812,
+      "grad_norm": 0.4789552688598633,
+      "learning_rate": 3.6552076639241027e-05,
+      "loss": 0.0344,
+      "step": 158
+    },
+    {
+      "epoch": 1.1216931216931216,
+      "grad_norm": 0.3795282542705536,
+      "learning_rate": 3.65983275401539e-05,
+      "loss": 0.0164,
+      "step": 159
+    },
+    {
+      "epoch": 1.128747795414462,
+      "grad_norm": 0.6095085144042969,
+      "learning_rate": 3.664428478257371e-05,
+      "loss": 0.017,
+      "step": 160
+    },
+    {
+      "epoch": 1.1358024691358024,
+      "grad_norm": 0.7060067057609558,
+      "learning_rate": 3.668995207200753e-05,
+      "loss": 0.0296,
+      "step": 161
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.8230766654014587,
+      "learning_rate": 3.673533304426541e-05,
+      "loss": 0.0424,
+      "step": 162
+    },
+    {
+      "epoch": 1.1499118165784832,
+      "grad_norm": 0.4897718131542206,
+      "learning_rate": 3.67804312671975e-05,
+      "loss": 0.0217,
+      "step": 163
+    },
+    {
+      "epoch": 1.1569664902998236,
+      "grad_norm": 0.4311521351337433,
+      "learning_rate": 3.682525024237719e-05,
+      "loss": 0.0278,
+      "step": 164
+    },
+    {
+      "epoch": 1.164021164021164,
+      "grad_norm": 0.37872302532196045,
+      "learning_rate": 3.6869793406732636e-05,
+      "loss": 0.015,
+      "step": 165
+    },
+    {
+      "epoch": 1.1710758377425043,
+      "grad_norm": 0.3771253526210785,
+      "learning_rate": 3.69140641341283e-05,
+      "loss": 0.0278,
+      "step": 166
+    },
+    {
+      "epoch": 1.1781305114638447,
+      "grad_norm": 0.6320034265518188,
+      "learning_rate": 3.695806573689844e-05,
+      "loss": 0.0144,
+      "step": 167
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 0.40642789006233215,
+      "learning_rate": 3.700180146733426e-05,
+      "loss": 0.0394,
+      "step": 168
+    },
+    {
+      "epoch": 1.1922398589065255,
+      "grad_norm": 0.490627259016037,
+      "learning_rate": 3.704527451912639e-05,
+      "loss": 0.0285,
+      "step": 169
+    },
+    {
+      "epoch": 1.199294532627866,
+      "grad_norm": 0.5026156306266785,
+      "learning_rate": 3.708848802876438e-05,
+      "loss": 0.0255,
+      "step": 170
+    },
+    {
+      "epoch": 1.2063492063492063,
+      "grad_norm": 0.3265487551689148,
+      "learning_rate": 3.7131445076894564e-05,
+      "loss": 0.0126,
+      "step": 171
+    },
+    {
+      "epoch": 1.2134038800705467,
+      "grad_norm": 0.49885180592536926,
+      "learning_rate": 3.717414868963791e-05,
+      "loss": 0.0203,
+      "step": 172
+    },
+    {
+      "epoch": 1.220458553791887,
+      "grad_norm": 0.661622941493988,
+      "learning_rate": 3.721660183986924e-05,
+      "loss": 0.0332,
+      "step": 173
+    },
+    {
+      "epoch": 1.2275132275132274,
+      "grad_norm": 0.3157746195793152,
+      "learning_rate": 3.725880744845915e-05,
+      "loss": 0.0144,
+      "step": 174
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 1.141743779182434,
+      "learning_rate": 3.730076838547993e-05,
+      "loss": 0.0245,
+      "step": 175
+    },
+    {
+      "epoch": 1.2416225749559082,
+      "grad_norm": 0.4302665591239929,
+      "learning_rate": 3.734248747137666e-05,
+      "loss": 0.0129,
+      "step": 176
+    },
+    {
+      "epoch": 1.2486772486772486,
+      "grad_norm": 1.7228344678878784,
+      "learning_rate": 3.738396747810492e-05,
+      "loss": 0.0412,
+      "step": 177
+    },
+    {
+      "epoch": 1.255731922398589,
+      "grad_norm": 0.5942803025245667,
+      "learning_rate": 3.7425211130235834e-05,
+      "loss": 0.0311,
+      "step": 178
+    },
+    {
+      "epoch": 1.2627865961199294,
+      "grad_norm": 2.3315789699554443,
+      "learning_rate": 3.7466221106030115e-05,
+      "loss": 0.0433,
+      "step": 179
+    },
+    {
+      "epoch": 1.2698412698412698,
+      "grad_norm": 0.44636741280555725,
+      "learning_rate": 3.750700003848157e-05,
+      "loss": 0.0214,
+      "step": 180
+    },
+    {
+      "epoch": 1.2768959435626102,
+      "grad_norm": 0.43351835012435913,
+      "learning_rate": 3.7547550516331555e-05,
+      "loss": 0.043,
+      "step": 181
+    },
+    {
+      "epoch": 1.2839506172839505,
+      "grad_norm": 0.8504909873008728,
+      "learning_rate": 3.75878750850551e-05,
+      "loss": 0.0207,
+      "step": 182
+    },
+    {
+      "epoch": 1.291005291005291,
+      "grad_norm": 0.9498050808906555,
+      "learning_rate": 3.7627976247819744e-05,
+      "loss": 0.0501,
+      "step": 183
+    },
+    {
+      "epoch": 1.2980599647266313,
+      "grad_norm": 0.426117867231369,
+      "learning_rate": 3.766785646641792e-05,
+      "loss": 0.0195,
+      "step": 184
+    },
+    {
+      "epoch": 1.3051146384479717,
+      "grad_norm": 0.3924143314361572,
+      "learning_rate": 3.770751816217383e-05,
+      "loss": 0.0195,
+      "step": 185
+    },
+    {
+      "epoch": 1.312169312169312,
+      "grad_norm": 0.5952396988868713,
+      "learning_rate": 3.7746963716825615e-05,
+      "loss": 0.042,
+      "step": 186
+    },
+    {
+      "epoch": 1.3192239858906525,
+      "grad_norm": 0.44761860370635986,
+      "learning_rate": 3.778619547338356e-05,
+      "loss": 0.0299,
+      "step": 187
+    },
+    {
+      "epoch": 1.3262786596119929,
+      "grad_norm": 0.3791397213935852,
+      "learning_rate": 3.782521573696528e-05,
+      "loss": 0.014,
+      "step": 188
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.3473624587059021,
+      "learning_rate": 3.786402677560832e-05,
+      "loss": 0.0149,
+      "step": 189
+    },
+    {
+      "epoch": 1.3403880070546736,
+      "grad_norm": 0.5772216320037842,
+      "learning_rate": 3.790263082106134e-05,
+      "loss": 0.0375,
+      "step": 190
+    },
+    {
+      "epoch": 1.347442680776014,
+      "grad_norm": 0.39003878831863403,
+      "learning_rate": 3.794103006955407e-05,
+      "loss": 0.0155,
+      "step": 191
+    },
+    {
+      "epoch": 1.3544973544973544,
+      "grad_norm": 0.6276049017906189,
+      "learning_rate": 3.797922668254715e-05,
+      "loss": 0.0224,
+      "step": 192
+    },
+    {
+      "epoch": 1.3615520282186948,
+      "grad_norm": 0.920841634273529,
+      "learning_rate": 3.801722278746213e-05,
+      "loss": 0.0331,
+      "step": 193
+    },
+    {
+      "epoch": 1.3686067019400352,
+      "grad_norm": 0.4426538944244385,
+      "learning_rate": 3.8055020478392495e-05,
+      "loss": 0.0188,
+      "step": 194
+    },
+    {
+      "epoch": 1.3756613756613756,
+      "grad_norm": 0.6603868007659912,
+      "learning_rate": 3.809262181679623e-05,
+      "loss": 0.0183,
+      "step": 195
+    },
+    {
+      "epoch": 1.382716049382716,
+      "grad_norm": 0.27960118651390076,
+      "learning_rate": 3.813002883217044e-05,
+      "loss": 0.013,
+      "step": 196
+    },
+    {
+      "epoch": 1.3897707231040564,
+      "grad_norm": 0.4121691584587097,
+      "learning_rate": 3.816724352270863e-05,
+      "loss": 0.0195,
+      "step": 197
+    },
+    {
+      "epoch": 1.3968253968253967,
+      "grad_norm": 0.3956167995929718,
+      "learning_rate": 3.8204267855941266e-05,
+      "loss": 0.018,
+      "step": 198
+    },
+    {
+      "epoch": 1.4038800705467371,
+      "grad_norm": 0.3960922360420227,
+      "learning_rate": 3.824110376935989e-05,
+      "loss": 0.0302,
+      "step": 199
+    },
+    {
+      "epoch": 1.4109347442680775,
+      "grad_norm": 0.67223060131073,
+      "learning_rate": 3.827775317102552e-05,
+      "loss": 0.0435,
+      "step": 200
+    },
+    {
+      "epoch": 1.4109347442680775,
+      "eval_loss": 0.26601219177246094,
+      "eval_runtime": 350.5408,
+      "eval_samples_per_second": 6.47,
+      "eval_steps_per_second": 0.405,
+      "step": 200
+    },
+    {
+      "epoch": 1.417989417989418,
+      "grad_norm": 0.34897902607917786,
+      "learning_rate": 3.831421794016178e-05,
+      "loss": 0.0113,
+      "step": 201
+    },
+    {
+      "epoch": 1.4250440917107583,
+      "grad_norm": 0.4447449743747711,
+      "learning_rate": 3.835049992773302e-05,
+      "loss": 0.0197,
+      "step": 202
+    },
+    {
+      "epoch": 1.4320987654320987,
+      "grad_norm": 0.6095953583717346,
+      "learning_rate": 3.838660095700815e-05,
+      "loss": 0.0263,
+      "step": 203
+    },
+    {
+      "epoch": 1.439153439153439,
+      "grad_norm": 0.7258620858192444,
+      "learning_rate": 3.84225228241104e-05,
+      "loss": 0.0121,
+      "step": 204
+    },
+    {
+      "epoch": 1.4462081128747795,
+      "grad_norm": 0.4723944365978241,
+      "learning_rate": 3.8458267298553554e-05,
+      "loss": 0.025,
+      "step": 205
+    },
+    {
+      "epoch": 1.4532627865961198,
+      "grad_norm": 0.37399163842201233,
+      "learning_rate": 3.8493836123764984e-05,
+      "loss": 0.0326,
+      "step": 206
+    },
+    {
+      "epoch": 1.4603174603174602,
+      "grad_norm": 0.5367653369903564,
+      "learning_rate": 3.852923101759591e-05,
+      "loss": 0.033,
+      "step": 207
+    },
+    {
+      "epoch": 1.4673721340388006,
+      "grad_norm": 0.36451810598373413,
+      "learning_rate": 3.856445367281923e-05,
+      "loss": 0.012,
+      "step": 208
+    },
+    {
+      "epoch": 1.474426807760141,
+      "grad_norm": 0.5865375995635986,
+      "learning_rate": 3.859950575761529e-05,
+      "loss": 0.0461,
+      "step": 209
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.4337036609649658,
+      "learning_rate": 3.8634388916046025e-05,
+      "loss": 0.0281,
+      "step": 210
+    },
+    {
+      "epoch": 1.4885361552028218,
+      "grad_norm": 0.3850497603416443,
+      "learning_rate": 3.866910476851757e-05,
+      "loss": 0.0141,
+      "step": 211
+    },
+    {
+      "epoch": 1.4955908289241622,
+      "grad_norm": 0.31644490361213684,
+      "learning_rate": 3.870365491223199e-05,
+      "loss": 0.0098,
+      "step": 212
+    },
+    {
+      "epoch": 1.5026455026455028,
+      "grad_norm": 0.5170356631278992,
+      "learning_rate": 3.8738040921628215e-05,
+      "loss": 0.0531,
+      "step": 213
+    },
+    {
+      "epoch": 1.509700176366843,
+      "grad_norm": 0.34572136402130127,
+      "learning_rate": 3.877226434881253e-05,
+      "loss": 0.022,
+      "step": 214
+    },
+    {
+      "epoch": 1.5167548500881836,
+      "grad_norm": 0.3803236782550812,
+      "learning_rate": 3.880632672397897e-05,
+      "loss": 0.0217,
+      "step": 215
+    },
+    {
+      "epoch": 1.5238095238095237,
+      "grad_norm": 0.7378140091896057,
+      "learning_rate": 3.884022955581985e-05,
+      "loss": 0.0149,
+      "step": 216
+    },
+    {
+      "epoch": 1.5308641975308643,
+      "grad_norm": 0.3270248472690582,
+      "learning_rate": 3.887397433192676e-05,
+      "loss": 0.0176,
+      "step": 217
+    },
+    {
+      "epoch": 1.5379188712522045,
+      "grad_norm": 0.6880928874015808,
+      "learning_rate": 3.890756251918219e-05,
+      "loss": 0.0319,
+      "step": 218
+    },
+    {
+      "epoch": 1.544973544973545,
+      "grad_norm": 0.3759993612766266,
+      "learning_rate": 3.894099556414216e-05,
+      "loss": 0.0171,
+      "step": 219
+    },
+    {
+      "epoch": 1.5520282186948853,
+      "grad_norm": 0.4239048361778259,
+      "learning_rate": 3.897427489341009e-05,
+      "loss": 0.0175,
+      "step": 220
+    },
+    {
+      "epoch": 1.5590828924162259,
+      "grad_norm": 0.3262343108654022,
+      "learning_rate": 3.900740191400198e-05,
+      "loss": 0.0213,
+      "step": 221
+    },
+    {
+      "epoch": 1.566137566137566,
+      "grad_norm": 0.5575190782546997,
+      "learning_rate": 3.904037801370344e-05,
+      "loss": 0.0185,
+      "step": 222
+    },
+    {
+      "epoch": 1.5731922398589067,
+      "grad_norm": 0.5186108350753784,
+      "learning_rate": 3.9073204561418514e-05,
+      "loss": 0.0358,
+      "step": 223
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 0.6314687728881836,
+      "learning_rate": 3.9105882907510644e-05,
+      "loss": 0.0358,
+      "step": 224
+    },
+    {
+      "epoch": 1.5873015873015874,
+      "grad_norm": 0.5658460855484009,
+      "learning_rate": 3.913841438413601e-05,
+      "loss": 0.022,
+      "step": 225
+    },
+    {
+      "epoch": 1.5943562610229276,
+      "grad_norm": 0.2356942743062973,
+      "learning_rate": 3.917080030556938e-05,
+      "loss": 0.0094,
+      "step": 226
+    },
+    {
+      "epoch": 1.6014109347442682,
+      "grad_norm": 0.2790418565273285,
+      "learning_rate": 3.9203041968522716e-05,
+      "loss": 0.0138,
+      "step": 227
+    },
+    {
+      "epoch": 1.6084656084656084,
+      "grad_norm": 0.3582196533679962,
+      "learning_rate": 3.923514065245669e-05,
+      "loss": 0.0483,
+      "step": 228
+    },
+    {
+      "epoch": 1.615520282186949,
+      "grad_norm": 0.4799334406852722,
+      "learning_rate": 3.926709761988538e-05,
+      "loss": 0.026,
+      "step": 229
+    },
+    {
+      "epoch": 1.6225749559082892,
+      "grad_norm": 0.5170966386795044,
+      "learning_rate": 3.929891411667424e-05,
+      "loss": 0.0269,
+      "step": 230
+    },
+    {
+      "epoch": 1.6296296296296298,
+      "grad_norm": 0.3738221824169159,
+      "learning_rate": 3.933059137233147e-05,
+      "loss": 0.0252,
+      "step": 231
+    },
+    {
+      "epoch": 1.63668430335097,
+      "grad_norm": 0.28906935453414917,
+      "learning_rate": 3.9362130600293214e-05,
+      "loss": 0.0161,
+      "step": 232
+    },
+    {
+      "epoch": 1.6437389770723105,
+      "grad_norm": 0.20773281157016754,
+      "learning_rate": 3.9393532998202405e-05,
+      "loss": 0.0117,
+      "step": 233
+    },
+    {
+      "epoch": 1.6507936507936507,
+      "grad_norm": 0.509770929813385,
+      "learning_rate": 3.942479974818166e-05,
+      "loss": 0.0208,
+      "step": 234
+    },
+    {
+      "epoch": 1.6578483245149913,
+      "grad_norm": 0.9972848296165466,
+      "learning_rate": 3.945593201710032e-05,
+      "loss": 0.0218,
+      "step": 235
+    },
+    {
+      "epoch": 1.6649029982363315,
+      "grad_norm": 0.5581172704696655,
+      "learning_rate": 3.9486930956835724e-05,
+      "loss": 0.0148,
+      "step": 236
+    },
+    {
+      "epoch": 1.671957671957672,
+      "grad_norm": 0.37124931812286377,
+      "learning_rate": 3.951779770452894e-05,
+      "loss": 0.0265,
+      "step": 237
+    },
+    {
+      "epoch": 1.6790123456790123,
+      "grad_norm": 2.602940320968628,
+      "learning_rate": 3.954853338283512e-05,
+      "loss": 0.0194,
+      "step": 238
+    },
+    {
+      "epoch": 1.6860670194003529,
+      "grad_norm": 0.5400798916816711,
+      "learning_rate": 3.9579139100168404e-05,
+      "loss": 0.0261,
+      "step": 239
+    },
+    {
+      "epoch": 1.693121693121693,
+      "grad_norm": 0.45997512340545654,
+      "learning_rate": 3.960961595094187e-05,
+      "loss": 0.0258,
+      "step": 240
+    },
+    {
+      "epoch": 1.7001763668430336,
+      "grad_norm": 0.46961885690689087,
+      "learning_rate": 3.96399650158023e-05,
+      "loss": 0.0342,
+      "step": 241
+    },
+    {
+      "epoch": 1.7072310405643738,
+      "grad_norm": 0.3677431643009186,
+      "learning_rate": 3.96701873618601e-05,
+      "loss": 0.0246,
+      "step": 242
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.5030479431152344,
+      "learning_rate": 3.970028404291448e-05,
+      "loss": 0.0337,
+      "step": 243
+    },
+    {
+      "epoch": 1.7213403880070546,
+      "grad_norm": 0.3739985525608063,
+      "learning_rate": 3.9730256099673865e-05,
+      "loss": 0.0123,
+      "step": 244
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.28314831852912903,
+      "learning_rate": 3.976010455997187e-05,
+      "loss": 0.0123,
+      "step": 245
+    },
+    {
+      "epoch": 1.7354497354497354,
+      "grad_norm": 0.3528687059879303,
+      "learning_rate": 3.978983043897883e-05,
+      "loss": 0.0273,
+      "step": 246
+    },
+    {
+      "epoch": 1.742504409171076,
+      "grad_norm": 0.394379585981369,
+      "learning_rate": 3.981943473940888e-05,
+      "loss": 0.0154,
+      "step": 247
+    },
+    {
+      "epoch": 1.7495590828924161,
+      "grad_norm": 0.4291190207004547,
+      "learning_rate": 3.984891845172299e-05,
+      "loss": 0.0306,
+      "step": 248
+    },
+    {
+      "epoch": 1.7566137566137567,
+      "grad_norm": 0.5018404722213745,
+      "learning_rate": 3.987828255432777e-05,
+      "loss": 0.0234,
+      "step": 249
+    },
+    {
+      "epoch": 1.763668430335097,
+      "grad_norm": 0.4209292232990265,
+      "learning_rate": 3.9907528013770276e-05,
+      "loss": 0.0204,
+      "step": 250
+    },
+    {
+      "epoch": 1.7707231040564375,
+      "grad_norm": 0.2811947166919708,
+      "learning_rate": 3.993665578492894e-05,
+      "loss": 0.0088,
+      "step": 251
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.5545956492424011,
+      "learning_rate": 3.9965666811200624e-05,
+      "loss": 0.0251,
+      "step": 252
+    },
+    {
+      "epoch": 1.7848324514991183,
+      "grad_norm": 0.49265754222869873,
+      "learning_rate": 3.999456202468397e-05,
+      "loss": 0.0384,
+      "step": 253
+    },
+    {
+      "epoch": 1.7918871252204585,
+      "grad_norm": 0.4486110508441925,
+      "learning_rate": 4.002334234635907e-05,
+      "loss": 0.0195,
+      "step": 254
+    },
+    {
+      "epoch": 1.798941798941799,
+      "grad_norm": 0.3127782940864563,
+      "learning_rate": 4.005200868626364e-05,
+      "loss": 0.0155,
+      "step": 255
+    },
+    {
+      "epoch": 1.8059964726631392,
+      "grad_norm": 0.6288918256759644,
+      "learning_rate": 4.008056194366564e-05,
+      "loss": 0.0306,
+      "step": 256
+    },
+    {
+      "epoch": 1.8130511463844798,
+      "grad_norm": 0.3001275062561035,
+      "learning_rate": 4.010900300723259e-05,
+      "loss": 0.018,
+      "step": 257
+    },
+    {
+      "epoch": 1.82010582010582,
+      "grad_norm": 0.33980268239974976,
+      "learning_rate": 4.013733275519749e-05,
+      "loss": 0.0153,
+      "step": 258
+    },
+    {
+      "epoch": 1.8271604938271606,
+      "grad_norm": 0.42874833941459656,
+      "learning_rate": 4.016555205552158e-05,
+      "loss": 0.0261,
+      "step": 259
+    },
+    {
+      "epoch": 1.8342151675485008,
+      "grad_norm": 0.2633664011955261,
+      "learning_rate": 4.0193661766053834e-05,
+      "loss": 0.01,
+      "step": 260
+    },
+    {
+      "epoch": 1.8412698412698414,
+      "grad_norm": 0.39592593908309937,
+      "learning_rate": 4.022166273468753e-05,
+      "loss": 0.0358,
+      "step": 261
+    },
+    {
+      "epoch": 1.8483245149911816,
+      "grad_norm": 0.2792883813381195,
+      "learning_rate": 4.024955579951363e-05,
+      "loss": 0.0151,
+      "step": 262
+    },
+    {
+      "epoch": 1.8553791887125222,
+      "grad_norm": 0.4893220067024231,
+      "learning_rate": 4.027734178897136e-05,
+      "loss": 0.0307,
+      "step": 263
+    },
+    {
+      "epoch": 1.8624338624338623,
+      "grad_norm": 0.3258034288883209,
+      "learning_rate": 4.030502152199576e-05,
+      "loss": 0.0228,
+      "step": 264
+    },
+    {
+      "epoch": 1.869488536155203,
+      "grad_norm": 0.33434444665908813,
+      "learning_rate": 4.033259580816264e-05,
+      "loss": 0.0165,
+      "step": 265
+    },
+    {
+      "epoch": 1.876543209876543,
+      "grad_norm": 0.3734183609485626,
+      "learning_rate": 4.036006544783052e-05,
+      "loss": 0.018,
+      "step": 266
+    },
+    {
+      "epoch": 1.8835978835978837,
+      "grad_norm": 0.23990300297737122,
+      "learning_rate": 4.0387431232280135e-05,
+      "loss": 0.0099,
+      "step": 267
+    },
+    {
+      "epoch": 1.8906525573192239,
+      "grad_norm": 0.4307016432285309,
+      "learning_rate": 4.041469394385112e-05,
+      "loss": 0.0276,
+      "step": 268
+    },
+    {
+      "epoch": 1.8977072310405645,
+      "grad_norm": 0.5069787502288818,
+      "learning_rate": 4.0441854356076257e-05,
+      "loss": 0.0398,
+      "step": 269
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 0.24547268450260162,
+      "learning_rate": 4.046891323381315e-05,
+      "loss": 0.0135,
+      "step": 270
+    },
+    {
+      "epoch": 1.9118165784832453,
+      "grad_norm": 0.49004027247428894,
+      "learning_rate": 4.049587133337347e-05,
+      "loss": 0.0356,
+      "step": 271
+    },
+    {
+      "epoch": 1.9188712522045854,
+      "grad_norm": 0.3411717116832733,
+      "learning_rate": 4.0522729402649793e-05,
+      "loss": 0.0206,
+      "step": 272
+    },
+    {
+      "epoch": 1.925925925925926,
+      "grad_norm": 0.6035274267196655,
+      "learning_rate": 4.0549488181240096e-05,
+      "loss": 0.0416,
+      "step": 273
+    },
+    {
+      "epoch": 1.9329805996472662,
+      "grad_norm": 0.5692528486251831,
+      "learning_rate": 4.057614840056998e-05,
+      "loss": 0.024,
+      "step": 274
+    },
+    {
+      "epoch": 1.9400352733686068,
+      "grad_norm": 0.35133275389671326,
+      "learning_rate": 4.06027107840126e-05,
+      "loss": 0.0129,
+      "step": 275
+    },
+    {
+      "epoch": 1.947089947089947,
+      "grad_norm": 0.4275812804698944,
+      "learning_rate": 4.0629176047006474e-05,
+      "loss": 0.0211,
+      "step": 276
+    },
+    {
+      "epoch": 1.9541446208112876,
+      "grad_norm": 0.33566832542419434,
+      "learning_rate": 4.065554489717105e-05,
+      "loss": 0.0149,
+      "step": 277
+    },
+    {
+      "epoch": 1.9611992945326278,
+      "grad_norm": 0.2758539319038391,
+      "learning_rate": 4.068181803442029e-05,
+      "loss": 0.0155,
+      "step": 278
+    },
+    {
+      "epoch": 1.9682539682539684,
+      "grad_norm": 0.5552444458007812,
+      "learning_rate": 4.0707996151074147e-05,
+      "loss": 0.0338,
+      "step": 279
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.30761590600013733,
+      "learning_rate": 4.073407993196794e-05,
+      "loss": 0.0124,
+      "step": 280
+    },
+    {
+      "epoch": 1.9823633156966491,
+      "grad_norm": 0.483833909034729,
+      "learning_rate": 4.076007005455996e-05,
+      "loss": 0.0184,
+      "step": 281
+    },
+    {
+      "epoch": 1.9894179894179893,
+      "grad_norm": 0.4557156264781952,
+      "learning_rate": 4.0785967189036986e-05,
+      "loss": 0.0281,
+      "step": 282
+    },
+    {
+      "epoch": 1.99647266313933,
+      "grad_norm": 0.3032929301261902,
+      "learning_rate": 4.0811771998418e-05,
+      "loss": 0.0127,
+      "step": 283
+    },
+    {
+      "epoch": 2.00352733686067,
+      "grad_norm": 0.306891530752182,
+      "learning_rate": 4.083748513865602e-05,
+      "loss": 0.0245,
+      "step": 284
+    },
+    {
+      "epoch": 2.0105820105820107,
+      "grad_norm": 0.30066776275634766,
+      "learning_rate": 4.086310725873818e-05,
+      "loss": 0.0149,
+      "step": 285
+    },
+    {
+      "epoch": 2.017636684303351,
+      "grad_norm": 0.346320778131485,
+      "learning_rate": 4.0888639000783966e-05,
+      "loss": 0.0133,
+      "step": 286
+    },
+    {
+      "epoch": 2.0246913580246915,
+      "grad_norm": 0.23275919258594513,
+      "learning_rate": 4.0914081000141844e-05,
+      "loss": 0.011,
+      "step": 287
+    },
+    {
+      "epoch": 2.0317460317460316,
+      "grad_norm": 0.3610820174217224,
+      "learning_rate": 4.0939433885484055e-05,
+      "loss": 0.0197,
+      "step": 288
+    },
+    {
+      "epoch": 2.0388007054673722,
+      "grad_norm": 0.453847736120224,
+      "learning_rate": 4.0964698278899874e-05,
+      "loss": 0.0268,
+      "step": 289
+    },
+    {
+      "epoch": 2.0458553791887124,
+      "grad_norm": 0.4168277680873871,
+      "learning_rate": 4.0989874795987185e-05,
+      "loss": 0.0173,
+      "step": 290
+    },
+    {
+      "epoch": 2.052910052910053,
+      "grad_norm": 0.2898412346839905,
+      "learning_rate": 4.1014964045942465e-05,
+      "loss": 0.0126,
+      "step": 291
+    },
+    {
+      "epoch": 2.059964726631393,
+      "grad_norm": 0.4505179226398468,
+      "learning_rate": 4.103996663164927e-05,
+      "loss": 0.0161,
+      "step": 292
+    },
+    {
+      "epoch": 2.067019400352734,
+      "grad_norm": 0.5993428230285645,
+      "learning_rate": 4.106488314976513e-05,
+      "loss": 0.0253,
+      "step": 293
+    },
+    {
+      "epoch": 2.074074074074074,
+      "grad_norm": 0.41079506278038025,
+      "learning_rate": 4.108971419080698e-05,
+      "loss": 0.0186,
+      "step": 294
+    },
+    {
+      "epoch": 2.0811287477954146,
+      "grad_norm": 0.3127981126308441,
+      "learning_rate": 4.111446033923516e-05,
+      "loss": 0.0114,
+      "step": 295
+    },
+    {
+      "epoch": 2.0881834215167547,
+      "grad_norm": 0.43792659044265747,
+      "learning_rate": 4.113912217353596e-05,
+      "loss": 0.0238,
+      "step": 296
+    },
+    {
+      "epoch": 2.0952380952380953,
+      "grad_norm": 0.2403118908405304,
+      "learning_rate": 4.116370026630272e-05,
+      "loss": 0.0072,
+      "step": 297
+    },
+    {
+      "epoch": 2.1022927689594355,
+      "grad_norm": 0.2544070780277252,
+      "learning_rate": 4.118819518431564e-05,
+      "loss": 0.0154,
+      "step": 298
+    },
+    {
+      "epoch": 2.109347442680776,
+      "grad_norm": 0.40166372060775757,
+      "learning_rate": 4.121260748862021e-05,
+      "loss": 0.0259,
+      "step": 299
+    },
+    {
+      "epoch": 2.1164021164021163,
+      "grad_norm": 0.4582963287830353,
+      "learning_rate": 4.123693773460426e-05,
+      "loss": 0.02,
+      "step": 300
+    },
+    {
+      "epoch": 2.1164021164021163,
+      "eval_loss": 0.2626274526119232,
+      "eval_runtime": 350.1926,
+      "eval_samples_per_second": 6.476,
+      "eval_steps_per_second": 0.405,
+      "step": 300
+    },
+    {
+      "epoch": 2.123456790123457,
+      "grad_norm": 0.2750282287597656,
+      "learning_rate": 4.126118647207383e-05,
+      "loss": 0.0133,
+      "step": 301
+    },
+    {
+      "epoch": 2.130511463844797,
+      "grad_norm": 0.3560563027858734,
+      "learning_rate": 4.1285354245327715e-05,
+      "loss": 0.0115,
+      "step": 302
+    },
+    {
+      "epoch": 2.1375661375661377,
+      "grad_norm": 0.41415050625801086,
+      "learning_rate": 4.1309441593230726e-05,
+      "loss": 0.0231,
+      "step": 303
+    },
+    {
+      "epoch": 2.144620811287478,
+      "grad_norm": 0.48563840985298157,
+      "learning_rate": 4.133344904928585e-05,
+      "loss": 0.043,
+      "step": 304
+    },
+    {
+      "epoch": 2.1516754850088184,
+      "grad_norm": 0.41206222772598267,
+      "learning_rate": 4.1357377141705084e-05,
+      "loss": 0.0177,
+      "step": 305
+    },
+    {
+      "epoch": 2.1587301587301586,
+      "grad_norm": 0.24333642423152924,
+      "learning_rate": 4.1381226393479236e-05,
+      "loss": 0.0085,
+      "step": 306
+    },
+    {
+      "epoch": 2.165784832451499,
+      "grad_norm": 0.45870691537857056,
+      "learning_rate": 4.1404997322446435e-05,
+      "loss": 0.0123,
+      "step": 307
+    },
+    {
+      "epoch": 2.1728395061728394,
+      "grad_norm": 0.5222560167312622,
+      "learning_rate": 4.142869044135967e-05,
+      "loss": 0.0235,
+      "step": 308
+    },
+    {
+      "epoch": 2.17989417989418,
+      "grad_norm": 0.4070928394794464,
+      "learning_rate": 4.145230625795311e-05,
+      "loss": 0.0477,
+      "step": 309
+    },
+    {
+      "epoch": 2.18694885361552,
+      "grad_norm": 0.43290865421295166,
+      "learning_rate": 4.14758452750074e-05,
+      "loss": 0.0144,
+      "step": 310
+    },
+    {
+      "epoch": 2.1940035273368608,
+      "grad_norm": 0.35074254870414734,
+      "learning_rate": 4.149930799041392e-05,
+      "loss": 0.0261,
+      "step": 311
+    },
+    {
+      "epoch": 2.201058201058201,
+      "grad_norm": 0.5638989806175232,
+      "learning_rate": 4.152269489723788e-05,
+      "loss": 0.016,
+      "step": 312
+    },
+    {
+      "epoch": 2.2081128747795415,
+      "grad_norm": 0.15761926770210266,
+      "learning_rate": 4.1546006483780626e-05,
+      "loss": 0.0062,
+      "step": 313
+    },
+    {
+      "epoch": 2.2151675485008817,
+      "grad_norm": 0.20456282794475555,
+      "learning_rate": 4.156924323364072e-05,
+      "loss": 0.0105,
+      "step": 314
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.23817496001720428,
+      "learning_rate": 4.1592405625774144e-05,
+      "loss": 0.0111,
+      "step": 315
+    },
+    {
+      "epoch": 2.2292768959435625,
+      "grad_norm": 0.4282923936843872,
+      "learning_rate": 4.161549413455358e-05,
+      "loss": 0.0135,
+      "step": 316
+    },
+    {
+      "epoch": 2.236331569664903,
+      "grad_norm": 0.1764887571334839,
+      "learning_rate": 4.163850922982668e-05,
+      "loss": 0.0096,
+      "step": 317
+    },
+    {
+      "epoch": 2.2433862433862433,
+      "grad_norm": 0.8953129649162292,
+      "learning_rate": 4.16614513769734e-05,
+      "loss": 0.0128,
+      "step": 318
+    },
+    {
+      "epoch": 2.250440917107584,
+      "grad_norm": 0.4081833064556122,
+      "learning_rate": 4.1684321036962526e-05,
+      "loss": 0.0156,
+      "step": 319
+    },
+    {
+      "epoch": 2.257495590828924,
+      "grad_norm": 0.38541778922080994,
+      "learning_rate": 4.170711866640721e-05,
+      "loss": 0.016,
+      "step": 320
+    },
+    {
+      "epoch": 2.2645502645502646,
+      "grad_norm": 0.3514292240142822,
+      "learning_rate": 4.1729844717619684e-05,
+      "loss": 0.0174,
+      "step": 321
+    },
+    {
+      "epoch": 2.271604938271605,
+      "grad_norm": 0.28806954622268677,
+      "learning_rate": 4.17524996386651e-05,
+      "loss": 0.0249,
+      "step": 322
+    },
+    {
+      "epoch": 2.2786596119929454,
+      "grad_norm": 0.29771488904953003,
+      "learning_rate": 4.177508387341454e-05,
+      "loss": 0.0175,
+      "step": 323
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.5112621188163757,
+      "learning_rate": 4.179759786159719e-05,
+      "loss": 0.0465,
+      "step": 324
+    },
+    {
+      "epoch": 2.292768959435626,
+      "grad_norm": 0.2908097207546234,
+      "learning_rate": 4.182004203885172e-05,
+      "loss": 0.0165,
+      "step": 325
+    },
+    {
+      "epoch": 2.2998236331569664,
+      "grad_norm": 0.3347030282020569,
+      "learning_rate": 4.184241683677687e-05,
+      "loss": 0.0176,
+      "step": 326
+    },
+    {
+      "epoch": 2.306878306878307,
+      "grad_norm": 0.39874500036239624,
+      "learning_rate": 4.1864722682981245e-05,
+      "loss": 0.0177,
+      "step": 327
+    },
+    {
+      "epoch": 2.313932980599647,
+      "grad_norm": 0.3885672688484192,
+      "learning_rate": 4.188696000113232e-05,
+      "loss": 0.0172,
+      "step": 328
+    },
+    {
+      "epoch": 2.3209876543209877,
+      "grad_norm": 0.37026986479759216,
+      "learning_rate": 4.190912921100477e-05,
+      "loss": 0.0258,
+      "step": 329
+    },
+    {
+      "epoch": 2.328042328042328,
+      "grad_norm": 0.43948009610176086,
+      "learning_rate": 4.1931230728527994e-05,
+      "loss": 0.0189,
+      "step": 330
+    },
+    {
+      "epoch": 2.3350970017636685,
+      "grad_norm": 0.371096134185791,
+      "learning_rate": 4.195326496583291e-05,
+      "loss": 0.0166,
+      "step": 331
+    },
+    {
+      "epoch": 2.3421516754850087,
+      "grad_norm": 0.33448880910873413,
+      "learning_rate": 4.1975232331298125e-05,
+      "loss": 0.0254,
+      "step": 332
+    },
+    {
+      "epoch": 2.3492063492063493,
+      "grad_norm": 0.38793328404426575,
+      "learning_rate": 4.1997133229595316e-05,
+      "loss": 0.0184,
+      "step": 333
+    },
+    {
+      "epoch": 2.3562610229276895,
+      "grad_norm": 0.22659848630428314,
+      "learning_rate": 4.201896806173394e-05,
+      "loss": 0.0083,
+      "step": 334
+    },
+    {
+      "epoch": 2.36331569664903,
+      "grad_norm": 0.3306357264518738,
+      "learning_rate": 4.2040737225105335e-05,
+      "loss": 0.0152,
+      "step": 335
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 0.2892155647277832,
+      "learning_rate": 4.206244111352608e-05,
+      "loss": 0.0148,
+      "step": 336
+    },
+    {
+      "epoch": 2.377425044091711,
+      "grad_norm": 0.26743531227111816,
+      "learning_rate": 4.2084080117280756e-05,
+      "loss": 0.0132,
+      "step": 337
+    },
+    {
+      "epoch": 2.384479717813051,
+      "grad_norm": 0.30841487646102905,
+      "learning_rate": 4.210565462316407e-05,
+      "loss": 0.0153,
+      "step": 338
+    },
+    {
+      "epoch": 2.3915343915343916,
+      "grad_norm": 0.35935595631599426,
+      "learning_rate": 4.2127165014522315e-05,
+      "loss": 0.0188,
+      "step": 339
+    },
+    {
+      "epoch": 2.398589065255732,
+      "grad_norm": 0.3620130121707916,
+      "learning_rate": 4.214861167129425e-05,
+      "loss": 0.0186,
+      "step": 340
+    },
+    {
+      "epoch": 2.4056437389770724,
+      "grad_norm": 0.40925925970077515,
+      "learning_rate": 4.2169994970051365e-05,
+      "loss": 0.0254,
+      "step": 341
+    },
+    {
+      "epoch": 2.4126984126984126,
+      "grad_norm": 0.3751520812511444,
+      "learning_rate": 4.219131528403759e-05,
+      "loss": 0.0202,
+      "step": 342
+    },
+    {
+      "epoch": 2.419753086419753,
+      "grad_norm": 0.44678637385368347,
+      "learning_rate": 4.22125729832083e-05,
+      "loss": 0.0252,
+      "step": 343
+    },
+    {
+      "epoch": 2.4268077601410933,
+      "grad_norm": 0.3179228901863098,
+      "learning_rate": 4.2233768434268914e-05,
+      "loss": 0.0107,
+      "step": 344
+    },
+    {
+      "epoch": 2.433862433862434,
+      "grad_norm": 0.24804812669754028,
+      "learning_rate": 4.225490200071284e-05,
+      "loss": 0.0122,
+      "step": 345
+    },
+    {
+      "epoch": 2.440917107583774,
+      "grad_norm": 0.4041373133659363,
+      "learning_rate": 4.227597404285883e-05,
+      "loss": 0.0234,
+      "step": 346
+    },
+    {
+      "epoch": 2.4479717813051147,
+      "grad_norm": 0.20905975997447968,
+      "learning_rate": 4.229698491788791e-05,
+      "loss": 0.0091,
+      "step": 347
+    },
+    {
+      "epoch": 2.455026455026455,
+      "grad_norm": 0.28704166412353516,
+      "learning_rate": 4.231793497987961e-05,
+      "loss": 0.0121,
+      "step": 348
+    },
+    {
+      "epoch": 2.4620811287477955,
+      "grad_norm": 0.35453909635543823,
+      "learning_rate": 4.2338824579847904e-05,
+      "loss": 0.0185,
+      "step": 349
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.40766483545303345,
+      "learning_rate": 4.235965406577636e-05,
+      "loss": 0.0073,
+      "step": 350
+    },
+    {
+      "epoch": 2.4761904761904763,
+      "grad_norm": 0.302290141582489,
+      "learning_rate": 4.2380423782653e-05,
+      "loss": 0.0089,
+      "step": 351
+    },
+    {
+      "epoch": 2.4832451499118164,
+      "grad_norm": 0.438491553068161,
+      "learning_rate": 4.240113407250459e-05,
+      "loss": 0.0218,
+      "step": 352
+    },
+    {
+      "epoch": 2.490299823633157,
+      "grad_norm": 0.3508157432079315,
+      "learning_rate": 4.24217852744304e-05,
+      "loss": 0.0129,
+      "step": 353
+    },
+    {
+      "epoch": 2.497354497354497,
+      "grad_norm": 0.2605820894241333,
+      "learning_rate": 4.244237772463552e-05,
+      "loss": 0.0098,
+      "step": 354
+    },
+    {
+      "epoch": 2.504409171075838,
+      "grad_norm": 0.23794864118099213,
+      "learning_rate": 4.246291175646371e-05,
+      "loss": 0.0136,
+      "step": 355
+    },
+    {
+      "epoch": 2.511463844797178,
+      "grad_norm": 0.3486771881580353,
+      "learning_rate": 4.24833877004298e-05,
+      "loss": 0.0172,
+      "step": 356
+    },
+    {
+      "epoch": 2.5185185185185186,
+      "grad_norm": 0.4761708676815033,
+      "learning_rate": 4.250380588425157e-05,
+      "loss": 0.0258,
+      "step": 357
+    },
+    {
+      "epoch": 2.5255731922398588,
+      "grad_norm": 0.2902567386627197,
+      "learning_rate": 4.2524166632881255e-05,
+      "loss": 0.0172,
+      "step": 358
+    },
+    {
+      "epoch": 2.5326278659611994,
+      "grad_norm": 0.25851529836654663,
+      "learning_rate": 4.254447026853656e-05,
+      "loss": 0.0075,
+      "step": 359
+    },
+    {
+      "epoch": 2.5396825396825395,
+      "grad_norm": 0.23005281388759613,
+      "learning_rate": 4.2564717110731244e-05,
+      "loss": 0.0107,
+      "step": 360
+    },
+    {
+      "epoch": 2.54673721340388,
+      "grad_norm": 0.2701972723007202,
+      "learning_rate": 4.258490747630532e-05,
+      "loss": 0.0119,
+      "step": 361
+    },
+    {
+      "epoch": 2.5537918871252203,
+      "grad_norm": 0.3264407515525818,
+      "learning_rate": 4.260504167945479e-05,
+      "loss": 0.0204,
+      "step": 362
+    },
+    {
+      "epoch": 2.560846560846561,
+      "grad_norm": 0.3354279100894928,
+      "learning_rate": 4.2625120031760965e-05,
+      "loss": 0.0205,
+      "step": 363
+    },
+    {
+      "epoch": 2.567901234567901,
+      "grad_norm": 0.38325926661491394,
+      "learning_rate": 4.264514284221944e-05,
+      "loss": 0.0185,
+      "step": 364
+    },
+    {
+      "epoch": 2.5749559082892417,
+      "grad_norm": 0.4619055390357971,
+      "learning_rate": 4.266511041726854e-05,
+      "loss": 0.0202,
+      "step": 365
+    },
+    {
+      "epoch": 2.582010582010582,
+      "grad_norm": 0.37551018595695496,
+      "learning_rate": 4.26850230608176e-05,
+      "loss": 0.0231,
+      "step": 366
+    },
+    {
+      "epoch": 2.5890652557319225,
+      "grad_norm": 0.21586036682128906,
+      "learning_rate": 4.2704881074274584e-05,
+      "loss": 0.0109,
+      "step": 367
+    },
+    {
+      "epoch": 2.5961199294532626,
+      "grad_norm": 0.19090792536735535,
+      "learning_rate": 4.272468475657351e-05,
+      "loss": 0.0086,
+      "step": 368
+    },
+    {
+      "epoch": 2.6031746031746033,
+      "grad_norm": 1.218457579612732,
+      "learning_rate": 4.2744434404201497e-05,
+      "loss": 0.0169,
+      "step": 369
+    },
+    {
+      "epoch": 2.6102292768959434,
+      "grad_norm": 0.3905993700027466,
+      "learning_rate": 4.27641303112253e-05,
+      "loss": 0.0149,
+      "step": 370
+    },
+    {
+      "epoch": 2.617283950617284,
+      "grad_norm": 0.3336049020290375,
+      "learning_rate": 4.278377276931767e-05,
+      "loss": 0.0181,
+      "step": 371
+    },
+    {
+      "epoch": 2.624338624338624,
+      "grad_norm": 0.4581795930862427,
+      "learning_rate": 4.2803362067783256e-05,
+      "loss": 0.0267,
+      "step": 372
+    },
+    {
+      "epoch": 2.631393298059965,
+      "grad_norm": 0.2101754993200302,
+      "learning_rate": 4.2822898493584104e-05,
+      "loss": 0.0116,
+      "step": 373
+    },
+    {
+      "epoch": 2.638447971781305,
+      "grad_norm": 0.42322415113449097,
+      "learning_rate": 4.284238233136496e-05,
+      "loss": 0.0175,
+      "step": 374
+    },
+    {
+      "epoch": 2.6455026455026456,
+      "grad_norm": 0.329816997051239,
+      "learning_rate": 4.286181386347813e-05,
+      "loss": 0.0133,
+      "step": 375
+    },
+    {
+      "epoch": 2.6525573192239857,
+      "grad_norm": 0.2963216304779053,
+      "learning_rate": 4.288119337000801e-05,
+      "loss": 0.0172,
+      "step": 376
+    },
+    {
+      "epoch": 2.6596119929453264,
+      "grad_norm": 0.3237278461456299,
+      "learning_rate": 4.2900521128795315e-05,
+      "loss": 0.0375,
+      "step": 377
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.2482115775346756,
+      "learning_rate": 4.291979741546102e-05,
+      "loss": 0.012,
+      "step": 378
+    },
+    {
+      "epoch": 2.673721340388007,
+      "grad_norm": 0.46383151412010193,
+      "learning_rate": 4.293902250342989e-05,
+      "loss": 0.0269,
+      "step": 379
+    },
+    {
+      "epoch": 2.6807760141093473,
+      "grad_norm": 0.40127432346343994,
+      "learning_rate": 4.295819666395376e-05,
+      "loss": 0.0253,
+      "step": 380
+    },
+    {
+      "epoch": 2.687830687830688,
+      "grad_norm": 0.25148409605026245,
+      "learning_rate": 4.297732016613454e-05,
+      "loss": 0.0117,
+      "step": 381
+    },
+    {
+      "epoch": 2.694885361552028,
+      "grad_norm": 0.3709105849266052,
+      "learning_rate": 4.299639327694684e-05,
+      "loss": 0.024,
+      "step": 382
+    },
+    {
+      "epoch": 2.7019400352733687,
+      "grad_norm": 0.3348330855369568,
+      "learning_rate": 4.3015416261260325e-05,
+      "loss": 0.0167,
+      "step": 383
+    },
+    {
+      "epoch": 2.708994708994709,
+      "grad_norm": 0.4439306855201721,
+      "learning_rate": 4.303438938186182e-05,
+      "loss": 0.0153,
+      "step": 384
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.4493269622325897,
+      "learning_rate": 4.305331289947705e-05,
+      "loss": 0.0159,
+      "step": 385
+    },
+    {
+      "epoch": 2.7231040564373896,
+      "grad_norm": 0.3308960199356079,
+      "learning_rate": 4.3072187072792184e-05,
+      "loss": 0.0157,
+      "step": 386
+    },
+    {
+      "epoch": 2.7301587301587302,
+      "grad_norm": 0.1948912888765335,
+      "learning_rate": 4.309101215847502e-05,
+      "loss": 0.0107,
+      "step": 387
+    },
+    {
+      "epoch": 2.7372134038800704,
+      "grad_norm": 0.22952932119369507,
+      "learning_rate": 4.3109788411195924e-05,
+      "loss": 0.0147,
+      "step": 388
+    },
+    {
+      "epoch": 2.744268077601411,
+      "grad_norm": 0.5562791228294373,
+      "learning_rate": 4.312851608364853e-05,
+      "loss": 0.0158,
+      "step": 389
+    },
+    {
+      "epoch": 2.751322751322751,
+      "grad_norm": 0.29296743869781494,
+      "learning_rate": 4.314719542657013e-05,
+      "loss": 0.0096,
+      "step": 390
+    },
+    {
+      "epoch": 2.758377425044092,
+      "grad_norm": 0.2562165856361389,
+      "learning_rate": 4.3165826688761796e-05,
+      "loss": 0.0086,
+      "step": 391
+    },
+    {
+      "epoch": 2.765432098765432,
+      "grad_norm": 0.21070915460586548,
+      "learning_rate": 4.318441011710833e-05,
+      "loss": 0.0105,
+      "step": 392
+    },
+    {
+      "epoch": 2.7724867724867726,
+      "grad_norm": 0.3632257580757141,
+      "learning_rate": 4.3202945956597786e-05,
+      "loss": 0.0149,
+      "step": 393
+    },
+    {
+      "epoch": 2.7795414462081127,
+      "grad_norm": 0.2885260581970215,
+      "learning_rate": 4.3221434450340956e-05,
+      "loss": 0.0098,
+      "step": 394
+    },
+    {
+      "epoch": 2.7865961199294533,
+      "grad_norm": 0.3417116701602936,
+      "learning_rate": 4.323987583959045e-05,
+      "loss": 0.02,
+      "step": 395
+    },
+    {
+      "epoch": 2.7936507936507935,
+      "grad_norm": 0.26477646827697754,
+      "learning_rate": 4.325827036375957e-05,
+      "loss": 0.0121,
+      "step": 396
+    },
+    {
+      "epoch": 2.800705467372134,
+      "grad_norm": 0.18265554308891296,
+      "learning_rate": 4.327661826044101e-05,
+      "loss": 0.0077,
+      "step": 397
+    },
+    {
+      "epoch": 2.8077601410934743,
+      "grad_norm": 0.33462291955947876,
+      "learning_rate": 4.329491976542521e-05,
+      "loss": 0.0124,
+      "step": 398
+    },
+    {
+      "epoch": 2.814814814814815,
+      "grad_norm": 0.3718152940273285,
+      "learning_rate": 4.331317511271859e-05,
+      "loss": 0.016,
+      "step": 399
+    },
+    {
+      "epoch": 2.821869488536155,
+      "grad_norm": 0.353544145822525,
+      "learning_rate": 4.333138453456147e-05,
+      "loss": 0.0204,
+      "step": 400
+    },
+    {
+      "epoch": 2.821869488536155,
+      "eval_loss": 0.3034096956253052,
+      "eval_runtime": 352.3366,
+      "eval_samples_per_second": 6.437,
+      "eval_steps_per_second": 0.403,
+      "step": 400
+    },
+    {
+      "epoch": 2.821869488536155,
+      "step": 400,
+      "total_flos": 2.583955738959282e+18,
+      "train_loss": 0.050165310025913644,
+      "train_runtime": 16554.5706,
+      "train_samples_per_second": 38.66,
+      "train_steps_per_second": 0.604
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 71,
+  "save_steps": 100,
+  "total_flos": 2.583955738959282e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}