На данный момент реализация с использованием Marlin не поддерживается. Пожалуйста, используйте реализацию на GEMM

Описание

Данная модель представляет собой квантизированную версию RuadaptQwen2.5-32B-instruct, выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.

Marlin — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.

Конфигурация квантизации

{
  "bits": 4,
  "group_size": 128,
  "modules_to_not_convert": null,
  "quant_method": "awq",
  "version": "marlin",
  "zero_point": false
}

Для квантизации использовалось 4096 семплов длиной 512 токенов.

Использование

Для использования необходимо установить: "autoawq[kernels]"" transformers tokenizers

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer

quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)

streamer = TextStreamer(tokenizer)

prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян: 
"""
messages = [
    {"role": "system", "content": "Ты Qwen, супер умный ассистент"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)

generation_output = model.generate(
    **model_inputs, 
    streamer=streamer,
    max_new_tokens=512,
    eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)

pomelk1n
/

RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin

На данный момент реализация с использованием Marlin не поддерживается. Пожалуйста, используйте реализацию на GEMM

Описание

Конфигурация квантизации

Использование

Model tree for pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin

Dataset used to train pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin