BiGS 1000k

Bidirectional Gated State Space Model. 346M parameters, 23 layers, max sentence length 128, train 1000k steps with 97,280 tokens per step

Files changed (6) hide show

config.json ADDED Viewed

+{
+  "architectures": [
+    "BiGSForMaskedLM"
+  ],
+  "classifier_dropout": null,
+  "decode": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 128,
+  "model_type": "BiGS",
+  "num_hidden_layers": 23,
+  "num_ssm": 64,
+  "pad_token_id": 0,
+  "pooler_type": "mean",
+  "position_embedding_type": "absolute",
+  "pre_norm": true,
+  "transformers_version": "4.26.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

flax_model.msgpack ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:be760c0d3987a0591609854429729bc8de07304d40f36b7873bc2317afb42192
+size 1385274778

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "max_len": 128, "model_max_length": 128, "special_tokens_map_file": null, "name_or_path": "bigs-uncased", "tokenizer_class": "BiGSTokenizer"}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff