Maple728
/

TimeMoE-200M

Time Series Forecasting

Model card Files Files and versions Community

Maple728 commited on 18 days ago

Commit

3d1e09d

•

1 Parent(s): 83dec66

Update ts_generation_mixin.py

Files changed (1) hide show

ts_generation_mixin.py +7 -4

ts_generation_mixin.py CHANGED Viewed

@@ -28,6 +28,8 @@ class TSGenerationMixin(GenerationMixin):
             streamer: Optional["BaseStreamer"] = None,
             **model_kwargs,
     ) -> Union[GenerateNonBeamOutput, torch.Tensor]:
         if len(input_ids.shape) == 2:
             batch_size, cur_len = input_ids.shape
         else:
@@ -169,6 +171,7 @@ class TSGenerationMixin(GenerationMixin):
         if streamer is not None:
             streamer.end()
         if return_dict_in_generate:
             if self.config.is_encoder_decoder:
                 return GenerateEncoderDecoderOutput(
@@ -192,7 +195,7 @@ class TSGenerationMixin(GenerationMixin):
                     past_key_values=model_kwargs.get("past_key_values"),
                 )
         else:
-            return input_ids.squeeze(dim=-1)
     def _update_model_kwargs_for_generation(
             self,
@@ -226,12 +229,12 @@ class TSGenerationMixin(GenerationMixin):
             if "decoder_attention_mask" in model_kwargs:
                 decoder_attention_mask = model_kwargs["decoder_attention_mask"]
                 model_kwargs["decoder_attention_mask"] = torch.cat(
-                    [decoder_attention_mask, decoder_attention_mask.new_ones((decoder_attention_mask.shape[0], 1))],
                     dim=-1,
                 )
         if "cache_position" in model_kwargs and model_kwargs["cache_position"] is not None:
-            # model_kwargs["cache_position"] = model_kwargs["cache_position"][-1:] + horizon_length
-            model_kwargs["cache_position"] = model_kwargs["cache_position"][-1:] + 1
         return model_kwargs

             streamer: Optional["BaseStreamer"] = None,
             **model_kwargs,
     ) -> Union[GenerateNonBeamOutput, torch.Tensor]:
+        input_ids_origin_device = input_ids.device
+        input_ids = input_ids.to(self.device)
         if len(input_ids.shape) == 2:
             batch_size, cur_len = input_ids.shape
         else:
         if streamer is not None:
             streamer.end()
+        input_ids.squeeze_(dim=-1).to(input_ids_origin_device)
         if return_dict_in_generate:
             if self.config.is_encoder_decoder:
                 return GenerateEncoderDecoderOutput(
                     past_key_values=model_kwargs.get("past_key_values"),
                 )
         else:
+            return input_ids
     def _update_model_kwargs_for_generation(
             self,
             if "decoder_attention_mask" in model_kwargs:
                 decoder_attention_mask = model_kwargs["decoder_attention_mask"]
                 model_kwargs["decoder_attention_mask"] = torch.cat(
+                    [decoder_attention_mask, decoder_attention_mask.new_ones((decoder_attention_mask.shape[0], horizon_length))],
                     dim=-1,
                 )
         if "cache_position" in model_kwargs and model_kwargs["cache_position"] is not None:
+            model_kwargs["cache_position"] = model_kwargs["cache_position"][-1:] + horizon_length
+            # model_kwargs["cache_position"] = model_kwargs["cache_position"][-1:] + 1
         return model_kwargs