add model

Browse files

Files changed (14) hide show

config.json +51 -0
hf_mamba_classification.py +210 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +650 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +214 -0
trainer_state.json +62 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "_name_or_path": "state-spaces/mamba-2.8b-hf",
+  "architectures": [
+    "MambaForSequenceClassification"
+  ],
+  "auto_map": {
+    "AutoModelForSequenceClassification": "hf_mamba_classification.MambaForSequenceClassification"
+  },
+  "bos_token_id": 0,
+  "conv_kernel": 4,
+  "eos_token_id": 0,
+  "expand": 2,
+  "fused_add_norm": true,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "id2label": {
+    "0": "NEGATIVE",
+    "1": "NEUTRAL",
+    "2": "POSITIVE"
+  },
+  "initializer_range": 0.1,
+  "intermediate_size": 5120,
+  "label2id": {
+    "NEGATIVE": 0,
+    "NEUTRAL": 1,
+    "POSITIVE": 2
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "mamba",
+  "n_layer": 64,
+  "num_hidden_layers": 64,
+  "pad_token_id": 0,
+  "pad_vocab_size_multiple": 8,
+  "problem_type": "single_label_classification",
+  "rescale_prenorm_residual": false,
+  "residual_in_fp32": true,
+  "rms_norm": true,
+  "state_size": 16,
+  "time_step_floor": 0.0001,
+  "time_step_init_scheme": "random",
+  "time_step_max": 0.1,
+  "time_step_min": 0.001,
+  "time_step_rank": 160,
+  "time_step_scale": 1.0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "use_bias": false,
+  "use_cache": false,
+  "use_conv_bias": true,
+  "vocab_size": 50280
+}

hf_mamba_classification.py ADDED Viewed

	@@ -0,0 +1,210 @@

+import torch
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+from transformers.models.mamba.modeling_mamba import (
+    MambaPreTrainedModel,
+    MambaModel,
+    MambaCache,
+    MAMBA_INPUTS_DOCSTRING,
+    MAMBA_START_DOCSTRING,
+)
+from transformers.modeling_outputs import SequenceClassifierOutputWithPast
+from typing import List, Optional, Tuple, Union
+from transformers.utils import (
+    ModelOutput,
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    add_code_sample_docstrings,
+)
+from dataclasses import dataclass
+_CHECKPOINT_FOR_DOC = "state-spaces/mamba-130m-hf"
+_CONFIG_FOR_DOC = "MambaConfig"
+@dataclass
+class MambaSequenceClassifierOutput(ModelOutput):
+    """
+    Base class for outputs of sentence classification models.
+    Args:
+        loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
+            Classification (or regression if config.num_labels==1) loss.
+        logits (`torch.FloatTensor` of shape `(batch_size, config.num_labels)`):
+            Classification (or regression if config.num_labels==1) scores (before SoftMax).
+        cache_params (list of five `torch.FloatTensor` of shape `(batch_size, hidden_size, num_hidden_layers)`):
+            The state of the model at the last time step. Can be used in a forward method with the next `input_ids` to
+            avoid providing the old `input_ids`.
+        hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
+            Tuple of `torch.FloatTensor` (one for the output of the embeddings, if the model has an embedding layer, +
+            one for the output of each layer) of shape `(batch_size, sequence_length, hidden_size)`.
+            Hidden-states of the model at the output of each layer plus the optional initial embedding outputs.
+    """
+    loss: Optional[torch.FloatTensor] = None
+    logits: torch.FloatTensor = None
+    # cache_params: Optional[MambaCache] = None,
+    cache_params: Optional[List[torch.FloatTensor]] = None
+    # cache_params: Optional[Tuple[Tuple[torch.FloatTensor]]] = None
+    hidden_states: Optional[Tuple[torch.FloatTensor, ...]] = None
+class MambaClassificationHead(nn.Module):
+    """Head for sentence-level classification tasks."""
+    def __init__(self, config):
+        super().__init__()
+        # self.activation = ACT2FN[config.hidden_act]
+        # self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+        # self.dropout = nn.Dropout(config.hidden_dropout_prob)
+        self.out_proj = nn.Linear(config.hidden_size, config.num_labels, bias=False)
+        # module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
+        self.out_proj.weight.data.normal_(mean=0.0, std=config.initializer_range)
+        self.config = config
+    def forward(self, features, **kwargs):
+        # x = features[:, 0, :]  # take <s> token (equiv. to [CLS])
+        # x = self.dropout(x)
+        # x = self.dense(x)
+        # x = self.activation(x)
+        # x = self.dropout(x)
+        x = features
+        x = self.out_proj(x)
+        return x
+@add_start_docstrings(
+    """Mamba Model backbone with a sequence classification/regression head on top (a linear layer on top of
+    the pooled output) e.g. for GLUE tasks.""",
+    MAMBA_START_DOCSTRING,
+)
+class MambaForSequenceClassification(MambaPreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        # self.embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
+        self.backbone = MambaModel(config)
+        # self.classifier = MambaClassificationHead(config)
+        self.classifier = nn.Linear(config.hidden_size, config.num_labels, bias=False)
+        # self.score = nn.Linear(config.hidden_size, config.num_labels, bias=False)
+        for param in self.base_model.parameters():
+            param.requires_grad = False
+        # Initialize weights and apply final processing
+        self.post_init()
+    @add_start_docstrings_to_model_forward(MAMBA_INPUTS_DOCSTRING.format("batch_size, sequence_length"))
+    @add_code_sample_docstrings(
+        checkpoint=_CHECKPOINT_FOR_DOC,
+        output_type=MambaSequenceClassifierOutput,
+        config_class=_CONFIG_FOR_DOC,
+    )
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        cache_params: Optional[MambaCache] = None,
+        use_cache: Optional[bool] = None,
+        labels: Optional[torch.LongTensor] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        **kwargs,
+    ) -> Union[Tuple, MambaSequenceClassifierOutput]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss.
+            Indices should be in `[0, ..., config.num_labels - 1]`.
+            If `config.num_labels == 1` a regression loss is computed (Mean-Square loss),
+            If `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        # use_cache = use_cache if use_cache is not None else (self.config.use_cache if not self.training else False)
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        # if inputs_embeds is None:
+        #     inputs_embeds = self.backbone.embeddings(input_ids)
+        # if self.backbone.gradient_checkpointing and self.training and use_cache:
+        #     use_cache = False
+        # if cache_params is None and use_cache:
+        #     cache_params = MambaCache(
+        #         self.config, inputs_embeds.size(0), device=inputs_embeds.device, dtype=inputs_embeds.dtype
+        #     )
+        mamba_outputs = self.backbone(
+            input_ids,
+            cache_params=cache_params,
+            use_cache=use_cache,
+            inputs_embeds=inputs_embeds,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = mamba_outputs[0]
+        logits = self.classifier(hidden_states)
+        if input_ids is not None:
+            batch_size, sequence_length = input_ids.shape[:2]
+        else:
+            batch_size, sequence_length = inputs_embeds.shape[:2]
+        assert (
+            self.config.pad_token_id is not None or batch_size == 1
+        ), "Cannot handle batch sizes > 1 if no padding token is defined."
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                # if no pad token found, use modulo instead of reverse indexing for ONNX compatibility
+                sequence_lengths = torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1
+                sequence_lengths = sequence_lengths % input_ids.shape[-1]
+                sequence_lengths = sequence_lengths.to(logits.device)
+            else:
+                sequence_lengths = -1
+                print(
+                    f"{self.__class__.__name__} will not detect padding tokens in `inputs_embeds`. Results may be "
+                    "unexpected if using padding tokens in conjunction with `inputs_embeds.`"
+                )
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+        loss = None
+        if labels is not None:
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        # if use_cache:
+        #     cache_params.seqlen_offset += inputs_embeds.shape[1]
+        if not return_dict:
+            output = (pooled_logits,) + mamba_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+        return MambaSequenceClassifierOutput(
+            loss=loss,
+            logits=pooled_logits,
+            cache_params=mamba_outputs.cache_params,
+            hidden_states=mamba_outputs.hidden_states,
+        )

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0022682157b0684b40659c4cba75394c59494cdb4cb79b4890070e81dd7756
+size 4969727736

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c51a5400ee9560f5611b5c64011b554f5b37c3437061cd0fa20d387ff1ae9986
+size 4949332368

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a73a54e21d5375d2327d086df1db0b9dace403aecf2110a583e3497df29b7ccb
+size 1154423960

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,650 @@

+{
+  "metadata": {
+    "total_size": 11073413120
+  },
+  "weight_map": {
+    "backbone.embeddings.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.23.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.24.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.25.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.26.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.27.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.27.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.27.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.27.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.27.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.28.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.3.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.30.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.4.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.40.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.46.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.47.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.48.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.49.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.5.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.50.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.50.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.51.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.52.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.53.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.54.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.55.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.56.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.57.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.57.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.57.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.57.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.57.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.58.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.6.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.60.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.7.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.norm_f.weight": "model-00003-of-00003.safetensors",
+    "classifier.weight": "model-00003-of-00003.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c58ebe4c00a9770be3150f0b9f9d469e6186e3e42d45a720df1c5702c3f38083
+size 63586

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:558a4b0fbdb033d779e0f95e05927694fea0f2ec8f7e3ce8de68c5939e6b9f27
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aea1d3be0f0e8728ef0b247b06bb18ffd08b993a5a7aad1b4bee74062dd9e22
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,214 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": true,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9968387776606953,
+  "eval_steps": 500,
+  "global_step": 1422,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9989462592202318,
+      "eval_accuracy": 0.7725118483412322,
+      "eval_loss": 0.5226067304611206,
+      "eval_runtime": 13.0982,
+      "eval_samples_per_second": 32.218,
+      "eval_steps_per_second": 8.093,
+      "step": 474
+    },
+    {
+      "epoch": 1.053740779768177,
+      "grad_norm": 7.272853851318359,
+      "learning_rate": 0.0006522557186771741,
+      "loss": 0.5991,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8317535545023697,
+      "eval_loss": 0.4196150302886963,
+      "eval_runtime": 13.0934,
+      "eval_samples_per_second": 32.23,
+      "eval_steps_per_second": 8.096,
+      "step": 949
+    },
+    {
+      "epoch": 2.107481559536354,
+      "grad_norm": 15.65460205078125,
+      "learning_rate": 0.0001818105588338676,
+      "loss": 0.4192,
+      "step": 1000
+    },
+    {
+      "epoch": 2.9968387776606953,
+      "eval_accuracy": 0.8388625592417062,
+      "eval_loss": 0.3961751163005829,
+      "eval_runtime": 13.1095,
+      "eval_samples_per_second": 32.19,
+      "eval_steps_per_second": 8.086,
+      "step": 1422
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1422,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 6754275451469824.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62553c6dd7e2dfc1e3e98ce201ba4fa032689ed6e9ad44cc2731c338e9215e54
+size 5048