BUAADreamer
/

Yi-VL-6B-hf

Visual Question Answering

image-text-to-text

Inference Endpoints

Model card Files Files and versions Community

BUAADreamer commited on May 21

Commit

030f3b8

•

1 Parent(s): 5318b89

Update README.md

Files changed (1) hide show

README.md +19 -0

README.md CHANGED Viewed

@@ -28,6 +28,25 @@ from PIL import Image
 import torch
 from transformers import AutoProcessor, AutoModelForVision2Seq
 model_id = "BUAADreamer/Yi-VL-6B-hf"
 messages = [

 import torch
 from transformers import AutoProcessor, AutoModelForVision2Seq
+class LlavaMultiModalProjectorYiVL(nn.Module):
+    def __init__(self, config: "LlavaConfig"):
+        super().__init__()
+        self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
+        self.linear_2 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
+        self.linear_3 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
+        self.linear_4 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
+        self.act = nn.GELU()
+    def forward(self, image_features):
+        hidden_states = self.linear_1(image_features)
+        hidden_states = self.linear_2(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_3(hidden_states)
+        hidden_states = self.linear_4(hidden_states)
+        return hidden_states
+transformers.models.llava.modeling_llava.LlavaMultiModalProjector = LlavaMultiModalProjectorYiVL
 model_id = "BUAADreamer/Yi-VL-6B-hf"
 messages = [