lightonai
/

FlexBert

Model card Files Files and versions Community

NohTow commited on Oct 8

Commit

6088290

•

1 Parent(s): 995cbf0

Fixes

Browse files

Files changed (18) hide show

__init__.py +2 -2
__pycache__/__init__.cpython-311.pyc +0 -0
__pycache__/activation.cpython-311.pyc +0 -0
__pycache__/attention.cpython-311.pyc +0 -0
__pycache__/bert_padding.cpython-311.pyc +0 -0
__pycache__/configuration_bert.cpython-311.pyc +0 -0
__pycache__/embeddings.cpython-311.pyc +0 -0
__pycache__/initialization.cpython-311.pyc +0 -0
__pycache__/layers.cpython-311.pyc +0 -0
__pycache__/mlp.cpython-311.pyc +0 -0
__pycache__/modeling_flexbert.cpython-311.pyc +0 -0
__pycache__/normalization.cpython-311.pyc +0 -0
__pycache__/padding.cpython-311.pyc +0 -0
__pycache__/rotary.cpython-311.pyc +0 -0
__pycache__/utils.cpython-311.pyc +0 -0
attention.py +5 -2
initialization.py +1 -1
modeling_flexbert.py +13 -14

__init__.py CHANGED Viewed

@@ -19,7 +19,7 @@ from .layers import (
     FlexBertUnpadPostNormLayer,
     FlexBertUnpadPreNormLayer,
 )
-from .model import (
     BertLMPredictionHead,
     BertModel,
     BertForMaskedLM,
@@ -68,6 +68,6 @@ __all__ = [
     "FlexBertForMaskedLM",
     "FlexBertForSequenceClassification",
     "FlexBertForMultipleChoice",
-    "IndexFirstAxis,
     "IndexPutFirstAxis"
 ]

     FlexBertUnpadPostNormLayer,
     FlexBertUnpadPreNormLayer,
 )
+from .modeling_flexbert import (
     BertLMPredictionHead,
     BertModel,
     BertForMaskedLM,
     "FlexBertForMaskedLM",
     "FlexBertForSequenceClassification",
     "FlexBertForMultipleChoice",
+    "IndexFirstAxis",
     "IndexPutFirstAxis"
 ]

__pycache__/__init__.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/__init__.cpython-311.pyc and b/__pycache__/__init__.cpython-311.pyc differ

__pycache__/activation.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/activation.cpython-311.pyc and b/__pycache__/activation.cpython-311.pyc differ

__pycache__/attention.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/attention.cpython-311.pyc and b/__pycache__/attention.cpython-311.pyc differ

__pycache__/bert_padding.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/bert_padding.cpython-311.pyc and b/__pycache__/bert_padding.cpython-311.pyc differ

__pycache__/configuration_bert.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/configuration_bert.cpython-311.pyc and b/__pycache__/configuration_bert.cpython-311.pyc differ

__pycache__/embeddings.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/embeddings.cpython-311.pyc and b/__pycache__/embeddings.cpython-311.pyc differ

__pycache__/initialization.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/initialization.cpython-311.pyc and b/__pycache__/initialization.cpython-311.pyc differ

__pycache__/layers.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/layers.cpython-311.pyc and b/__pycache__/layers.cpython-311.pyc differ

__pycache__/mlp.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/mlp.cpython-311.pyc and b/__pycache__/mlp.cpython-311.pyc differ

__pycache__/modeling_flexbert.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/modeling_flexbert.cpython-311.pyc and b/__pycache__/modeling_flexbert.cpython-311.pyc differ

__pycache__/normalization.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/normalization.cpython-311.pyc and b/__pycache__/normalization.cpython-311.pyc differ

__pycache__/padding.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/padding.cpython-311.pyc and b/__pycache__/padding.cpython-311.pyc differ

__pycache__/rotary.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/rotary.cpython-311.pyc and b/__pycache__/rotary.cpython-311.pyc differ

__pycache__/utils.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/utils.cpython-311.pyc and b/__pycache__/utils.cpython-311.pyc differ

attention.py CHANGED Viewed

@@ -20,12 +20,15 @@ from typing import Optional
 import importlib.metadata
 import logging
 import math
 import bert_padding
 from .configuration_bert import FlexBertConfig, maybe_add_padding
 from .normalization import get_norm_layer
 from .initialization import ModuleType, init_weights
-import src.utils  # noqa: F401
 IMPL_USE_FLASH3 = False
 IMPL_USE_FLASH2 = False

 import importlib.metadata
 import logging
 import math
+import sys
+import os
+# Add src folder root to path to allow us to use relative imports regardless of what directory the script is run from
+sys.path.append(os.path.dirname(os.path.realpath(__file__)))
 import bert_padding
 from .configuration_bert import FlexBertConfig, maybe_add_padding
 from .normalization import get_norm_layer
 from .initialization import ModuleType, init_weights
+import utils  # noqa: F401
 IMPL_USE_FLASH3 = False
 IMPL_USE_FLASH2 = False

initialization.py CHANGED Viewed

@@ -14,7 +14,7 @@ from typing import Optional, Union
 import torch
 import torch.nn as nn
-from src.utils import StrEnum
 from .configuration_bert import FlexBertConfig
 from .normalization import RMSNorm

 import torch
 import torch.nn as nn
+from utils import StrEnum
 from .configuration_bert import FlexBertConfig
 from .normalization import RMSNorm

modeling_flexbert.py CHANGED Viewed

@@ -69,8 +69,8 @@ from transformers.models.bert.modeling_bert import BertPreTrainedModel
 from bert_padding import index_put_first_axis
-from src.bert_layers.activation import get_act_fn
-from src.bert_layers.attention import (
     FlexBertPaddedAttention,
     FlexBertPaddedParallelAttention,
     FlexBertPaddedRopeAttention,
@@ -80,15 +80,15 @@ from src.bert_layers.attention import (
     FlexBertUnpadRopeAttention,
     FlexBertUnpadRopeParallelAttention,
 )
-from src.bert_layers.configuration_bert import FlexBertConfig
-from src.bert_layers.embeddings import (
     BertAlibiEmbeddings,
     FlexBertAbsoluteEmbeddings,
     FlexBertCompiledSansPositionEmbeddings,
     FlexBertSansPositionEmbeddings,
     get_embedding_layer,
 )
-from src.bert_layers.initialization import (
     ModuleType,
     TileLinear,
     TileMode,
@@ -97,7 +97,7 @@ from src.bert_layers.initialization import (
     tile_linear,
     tile_norm,
 )
-from src.bert_layers.layers import (
     BertAlibiEncoder,
     BertPooler,
     BertPredictionHeadTransform,
@@ -112,10 +112,9 @@ from src.bert_layers.layers import (
     FlexBertUnpadPreNormLayer,
     get_encoder_layer,
 )
-from src.bert_layers.loss import get_loss_fn
-from src.bert_layers.mlp import FlexBertGLU, FlexBertMLP, FlexBertParallelGLU
-from src.bert_layers.normalization import get_norm_layer
-from src.bert_layers.padding import pad_input, unpad_input
 logger = logging.getLogger(__name__)
@@ -867,14 +866,16 @@ class FlexBertPreTrainedModel(BertPreTrainedModel):
     def _init_module_weights(self, module: nn.Module):
         """
-        Custom weight init of modules using src.bert_layers.initialization.init_weights
         Currently only supports init of embedding modules
         """
         assert isinstance(module, nn.Module)
         if isinstance(module, nn.Embedding):
             init_weights(self.config, module, type_of_module=ModuleType.emb)
         else:
-            raise NotImplementedError("Custom weight init for the given module is not supported")
 class FlexBertModel(FlexBertPreTrainedModel):
@@ -1010,8 +1011,6 @@ class FlexBertForMaskedLM(FlexBertPreTrainedModel):
             decoder_weights = nn.Linear(config.hidden_size, config.vocab_size, bias=False).weight
         self.decoder = nn.Linear(decoder_weights.size(1), decoder_weights.size(0), bias=config.decoder_bias)
         self.decoder.weight = decoder_weights
-        self.loss_fn = nn.CrossEntropyLoss() if not hasattr(config, "loss_function") else get_loss_fn(config)
         self.fa_ce = getattr(config, "loss_function", "cross_entropy") == "fa_cross_entropy"
         self.return_z_loss = config.loss_kwargs.get("return_z_loss", False)
         self.unpad_embeddings = config.unpad_embeddings

 from bert_padding import index_put_first_axis
+from .activation import get_act_fn
+from .attention import (
     FlexBertPaddedAttention,
     FlexBertPaddedParallelAttention,
     FlexBertPaddedRopeAttention,
     FlexBertUnpadRopeAttention,
     FlexBertUnpadRopeParallelAttention,
 )
+from .configuration_bert import FlexBertConfig
+from .embeddings import (
     BertAlibiEmbeddings,
     FlexBertAbsoluteEmbeddings,
     FlexBertCompiledSansPositionEmbeddings,
     FlexBertSansPositionEmbeddings,
     get_embedding_layer,
 )
+from .initialization import (
     ModuleType,
     TileLinear,
     TileMode,
     tile_linear,
     tile_norm,
 )
+from .layers import (
     BertAlibiEncoder,
     BertPooler,
     BertPredictionHeadTransform,
     FlexBertUnpadPreNormLayer,
     get_encoder_layer,
 )
+from .mlp import FlexBertGLU, FlexBertMLP, FlexBertParallelGLU
+from .normalization import get_norm_layer
+from .padding import pad_input, unpad_input
 logger = logging.getLogger(__name__)
     def _init_module_weights(self, module: nn.Module):
         """
+        Custom weight init of modules using .initialization.init_weights
         Currently only supports init of embedding modules
         """
         assert isinstance(module, nn.Module)
         if isinstance(module, nn.Embedding):
             init_weights(self.config, module, type_of_module=ModuleType.emb)
         else:
+            print("Custom weight init for the given module is not supported")
+            print(module)
+            # raise NotImplementedError("Custom weight init for the given module is not supported")
 class FlexBertModel(FlexBertPreTrainedModel):
             decoder_weights = nn.Linear(config.hidden_size, config.vocab_size, bias=False).weight
         self.decoder = nn.Linear(decoder_weights.size(1), decoder_weights.size(0), bias=config.decoder_bias)
         self.decoder.weight = decoder_weights
         self.fa_ce = getattr(config, "loss_function", "cross_entropy") == "fa_cross_entropy"
         self.return_z_loss = config.loss_kwargs.get("return_z_loss", False)
         self.unpad_embeddings = config.unpad_embeddings