Efficient-Large-Model
/

Llama-3-VILA1.5-8B

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-pretrain_r4",
   "architectures": [
     "LlavaLlamaModel"
   ],
@@ -8,7 +8,7 @@
   "image_aspect_ratio": "resize",
   "interpolate_mode": "linear",
   "llm_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-pretrain_r4/llm",
     "add_cross_attention": false,
     "architectures": [
       "LlamaForCausalLM"
@@ -93,7 +93,7 @@
   },
   "mm_hidden_size": 1152,
   "mm_projector_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-pretrain_r4/mm_projector",
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
@@ -166,7 +166,7 @@
   "model_dtype": "torch.bfloat16",
   "model_type": "llava_llama",
   "num_video_frames": 8,
-  "resume_path": "./checkpoints/vila-siglip-llama3-8b-pretrain_r4",
   "s2": false,
   "s2_max_split_size": 336,
   "s2_scales": "336,672,1008",
@@ -176,7 +176,7 @@
   "tune_vision_tower": true,
   "vision_resolution": -1,
   "vision_tower_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-pretrain_r4/vision_tower",
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"

 {
+  "_name_or_path": "./vlm",
   "architectures": [
     "LlavaLlamaModel"
   ],
   "image_aspect_ratio": "resize",
   "interpolate_mode": "linear",
   "llm_cfg": {
+    "_name_or_path": "./llm",
     "add_cross_attention": false,
     "architectures": [
       "LlamaForCausalLM"
   },
   "mm_hidden_size": 1152,
   "mm_projector_cfg": {
+    "_name_or_path": "./mm_projector",
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
   "model_dtype": "torch.bfloat16",
   "model_type": "llava_llama",
   "num_video_frames": 8,
+  "resume_path": "./vlm",
   "s2": false,
   "s2_max_split_size": 336,
   "s2_scales": "336,672,1008",
   "tune_vision_tower": true,
   "vision_resolution": -1,
   "vision_tower_cfg": {
+    "_name_or_path": "./vision_tower",
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"