iqbalamo93
/

TinyLlama-1.1B-intermediate-1431k-3T-adapters-ultrachat

Text Generation

Model card Files Files and versions Community

iqbalamo93 commited on 28 days ago

Commit

af9a42b

•

1 Parent(s): c2eecdb

Update README.md

Files changed (1) hide show

README.md +40 -2

README.md CHANGED Viewed

@@ -77,6 +77,44 @@ pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer)
 print(pipe(prompt)[0]["generated_text"])
 ```
-#### Method 2: Merging with base mode explicitly
-todo

 print(pipe(prompt)[0]["generated_text"])
 ```
+#### Method 3: Using peftModel
+```python
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,  # Use 4-bit precision model loading
+    bnb_4bit_quant_type="nf4",  # Quantization type
+    bnb_4bit_compute_dtype="float16",  # Compute dtype
+    bnb_4bit_use_double_quant=True,  # Apply nested quantization
+)
+model_name = "TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T"
+adapter_name = 'iqbalamo93/TinyLlama-1.1B-intermediate-1431k-3T-adapters-ultrachat'
+model = AutoModelForCausalLM.from_pretrained(
+          model_name, quantization_config=bnb_config,)
+model = PeftModel.from_pretrained(
+            model,adapter_name
+)
+tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+prompt = """<|user|>
+Tell me something about Large Language Models.</s>
+<|assistant|>
+"""
+inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+with torch.no_grad():
+    outputs = model.generate(
+        input_ids=inputs['input_ids'],
+        temperature=0.7,            # Controls randomness: lower = more deterministic
+        top_p=0.9,                  # Nucleus sampling
+        top_k=50,                   # Top-K sampling
+        num_return_sequences=1,)
+for i, output in enumerate(outputs):
+    generated_text = tokenizer.decode(output, skip_special_tokens=True)
+    print(f"--- Generated Sequence {i + 1} ---")
+    print(generated_text)
+```