Snowflake
/

snowflake-arctic-instruct

@@ -56,7 +56,7 @@ from transformers.utils import (
 )
 from transformers.utils.import_utils import is_torch_fx_available
 from .configuration_arctic import ArcticConfig
-from transformers.integrations.deepspeed import is_deepspeed_available
 from transformers.utils.versions import require_version
 if is_deepspeed_available():
@@ -354,7 +354,7 @@ class ArcticAttention(nn.Module):
                                      ds_optimized_quantization_config=quantization_config,
                                      ds_optimized_base_weight_sharding=True,
                                      dtype=torch.bfloat16)
-        self.o_proj = get_arctic_linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=False,
                                      use_deepspeed_implementation=self.use_deepspeed_implementation,
                                      ds_optimized_lora_config=deepspeed_lora_config,
                                      ds_optimized_quantization_config=quantization_config,

 )
 from transformers.utils.import_utils import is_torch_fx_available
 from .configuration_arctic import ArcticConfig
+from transformers.integrations.deepspeed import is_deepspeed_available
 from transformers.utils.versions import require_version
 if is_deepspeed_available():
                                      ds_optimized_quantization_config=quantization_config,
                                      ds_optimized_base_weight_sharding=True,
                                      dtype=torch.bfloat16)
+        self.o_proj = get_arctic_linear(self.hidden_size, self.hidden_size, bias=False,
                                      use_deepspeed_implementation=self.use_deepspeed_implementation,
                                      ds_optimized_lora_config=deepspeed_lora_config,
                                      ds_optimized_quantization_config=quantization_config,