HuggingFaceM4
/

VLM_WebSight_finetuned

Text Generation

Model card Files Files and versions Community

VictorSanh commited on Jan 12

Commit

4746d53

•

1 Parent(s): c816c5b

fixes

Files changed (1) hide show

vision.py +5 -5

vision.py CHANGED Viewed

@@ -84,7 +84,7 @@ class SiglipVisionModelOutput(ModelOutput):
 class SiglipVisionEmbeddings(nn.Module):
-    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.config = config
         self.embed_dim = config.hidden_size
@@ -423,7 +423,7 @@ class SiglipMLP(nn.Module):
 # Copied from transformers.models.clip.modeling_clip.CLIPEncoderLayer with CLIP->Siglip
 class SiglipEncoderLayer(nn.Module):
-    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.embed_dim = config.hidden_size
         self.self_attn = (
@@ -552,7 +552,7 @@ class SiglipEncoder(nn.Module):
 class SiglipVisionTransformer(nn.Module):
-    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.config = config
         embed_dim = config.hidden_size
@@ -607,7 +607,7 @@ class SiglipVisionTransformer(nn.Module):
 class SiglipMultiheadAttentionPoolingHead(nn.Module):
     """Multihead Attention Pooling."""
-    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.probe = nn.Parameter(torch.randn(1, 1, config.hidden_size))
@@ -629,7 +629,7 @@ class SiglipMultiheadAttentionPoolingHead(nn.Module):
 class SiglipVisionModel(nn.Module):
-    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.config = config

 class SiglipVisionEmbeddings(nn.Module):
+    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.config = config
         self.embed_dim = config.hidden_size
 # Copied from transformers.models.clip.modeling_clip.CLIPEncoderLayer with CLIP->Siglip
 class SiglipEncoderLayer(nn.Module):
+    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.embed_dim = config.hidden_size
         self.self_attn = (
 class SiglipVisionTransformer(nn.Module):
+    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.config = config
         embed_dim = config.hidden_size
 class SiglipMultiheadAttentionPoolingHead(nn.Module):
     """Multihead Attention Pooling."""
+    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.probe = nn.Parameter(torch.randn(1, 1, config.hidden_size))
 class SiglipVisionModel(nn.Module):
+    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.config = config