BAAI
/

AquilaChat-7B

yxaenbal commited on Sep 17, 2023

Commit

d594f6a

•

1 Parent(s): 65ffa9d

add missing attributes from llama

Files changed (1) hide show

configuration_aquila.py CHANGED Viewed

@@ -92,6 +92,10 @@ class AquilaConfig(PretrainedConfig):
         bos_token_id=1,
         eos_token_id=2,
         tie_word_embeddings=False,
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -100,10 +104,16 @@ class AquilaConfig(PretrainedConfig):
         self.intermediate_size = intermediate_size
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads
         self.hidden_act = hidden_act
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,

         bos_token_id=1,
         eos_token_id=2,
         tie_word_embeddings=False,
+        num_key_value_heads=None,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        pretraining_tp=1,
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.intermediate_size = intermediate_size
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
         self.hidden_act = hidden_act
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.pretraining_tp = pretraining_tp
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,