Salesforce
/

xgen-mm-phi3-mini-base-r-v1

@@ -52,7 +52,7 @@ The model is for research purposes, more technical details will come with a tech
 # How to use
-> We require the use of the development version (`"4.41.0.dev0"`) of the `transformers` library. To get it, as of 05/07/2024, one can use `pip uninstall -y transformers && pip install git+https://github.com/huggingface/transformers.`
 ```python
 from transformers import AutoModelForVision2Seq, AutoTokenizer, AutoImageProcessor
@@ -149,4 +149,10 @@ pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https
 pip install open_clip_torch==2.24.0
 pip install einops
 pip install einops-exts
-```

 # How to use
+~~> We require the use of the development version (`"4.41.0.dev0"`) of the `transformers` library. To get it, as of 05/07/2024, one can use `pip uninstall -y transformers && pip install git+https://github.com/huggingface/transformers.`~~
 ```python
 from transformers import AutoModelForVision2Seq, AutoTokenizer, AutoImageProcessor
 pip install open_clip_torch==2.24.0
 pip install einops
 pip install einops-exts
+pip install transformers==4.41.1
+```
+# Changelog
+* 05/24/2024
+    * update codebase to be compatiable with `transformers==4.41.1`.

vlm.py CHANGED Viewed

@@ -10,6 +10,7 @@ from transformers.modeling_outputs import CausalLMOutputWithPast
 from dataclasses import dataclass
 from transformers import CLIPVisionModel
 import transformers
 from .utils import num_params, getattr_recursive, stack_with_padding, get_anyres_image_grid_shape, unpad_image
@@ -1289,8 +1290,7 @@ class Kosmos(VLMWithLanguageStream):
             padding_side="left",
             num_beams=num_beams,
         )
-        if transformers.__version__ == '4.41.0.dev0':
             output = self.lang_model.generate(
                 **new_inputs,
                 num_beams=num_beams,
@@ -1298,11 +1298,5 @@ class Kosmos(VLMWithLanguageStream):
                 eos_token_id=self.end_of_trunk_token_id,
                 **kwargs)
         else:
-            output = self.lang_model.generate(
-                                **new_inputs,
-                                past_key_values=past_key_values,
-                                num_beams=num_beams,
-                                use_cache=True,
-                                eos_token_id=self.end_of_trunk_token_id,
-                                **kwargs)
         return output

 from dataclasses import dataclass
 from transformers import CLIPVisionModel
 import transformers
+from packaging.version import Version
 from .utils import num_params, getattr_recursive, stack_with_padding, get_anyres_image_grid_shape, unpad_image
             padding_side="left",
             num_beams=num_beams,
         )
+        if Version(transformers.__version__) >= Version('4.41.1'):
             output = self.lang_model.generate(
                 **new_inputs,
                 num_beams=num_beams,
                 eos_token_id=self.end_of_trunk_token_id,
                 **kwargs)
         else:
+            raise ValueError("Please upgrade transformers to version 4.41.1 or higher.")
         return output