neuralmagic
/

Llama-3.2-11B-Vision-Instruct-FP8-dynamic

Text Generation

compressed-tensors

Model card Files Files and versions Community

mgoin commited on 16 days ago

Commit

eac389f

•

1 Parent(s): 0333dc3

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -9,16 +9,15 @@ TBD
 https://github.com/vllm-project/llm-compressor/pull/185
 ```python
-from transformers import AutoProcessor
 from llmcompressor.modifiers.quantization import QuantizationModifier
-from llmcompressor.transformers import oneshot
-from llmcompressor.transformers.sparsification import create_sparse_auto_model_class
 MODEL_ID = "meta-llama/Llama-3.2-11B-Vision-Instruct"
 # Load model.
-model_class = create_sparse_auto_model_class("MllamaForConditionalGeneration")
 model = model_class.from_pretrained(MODEL_ID, device_map="auto", torch_dtype="auto")
 processor = AutoProcessor.from_pretrained(MODEL_ID)
@@ -35,6 +34,7 @@ recipe = QuantizationModifier(
 # Apply quantization and save to disk in compressed-tensors format.
 SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
 oneshot(model=model, recipe=recipe, output_dir=SAVE_DIR)
 # Confirm generations of the quantized model look sane.
 print("========== SAMPLE GENERATION ==============")

 https://github.com/vllm-project/llm-compressor/pull/185
 ```python
+from transformers import AutoProcessor, MllamaForConditionalGeneration
 from llmcompressor.modifiers.quantization import QuantizationModifier
+from llmcompressor.transformers import oneshot, wrap_hf_model_class
 MODEL_ID = "meta-llama/Llama-3.2-11B-Vision-Instruct"
 # Load model.
+model_class = wrap_hf_model_class(MllamaForConditionalGeneration)
 model = model_class.from_pretrained(MODEL_ID, device_map="auto", torch_dtype="auto")
 processor = AutoProcessor.from_pretrained(MODEL_ID)
 # Apply quantization and save to disk in compressed-tensors format.
 SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
 oneshot(model=model, recipe=recipe, output_dir=SAVE_DIR)
+processor.save_pretrained(SAVE_DIR)
 # Confirm generations of the quantized model look sane.
 print("========== SAMPLE GENERATION ==============")