This model quantized from openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf to 4-bit GUFF format.
Reference :
- https://huggingface.co/openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf
- https://github.com/ggerganov/llama.cpp#prepare-data--run
How to quantize GUFF format:
Example run inference in colab.
# Download GUFF model from file and version.
!git clone https://github.com/ggerganov/llama.cpp.git
!pip install -r llama.cpp/requirements.txt
!./llama.cpp/main -m openthaigpt-1.0.0-beta-7b-chat-ckpt-hf.gguf.Q4_0.bin -p "ยกตัวอย่างอาหารไทย สัก 5 ตัวอย่าง" -n 100 -e
#Result example
#ยกตัวอย่างอาหารไทย สัก 5 ตัวอย่างมาแนะนำ
#ยกตัวอย่างอาหารไทย สัก 5 ตัวอย่างที่คุณต้องลอง!
#➖➖➖- - - - - - 1. ผัดไทย 2. ส้มตำ 3. ลาบ 4. ต้มยำรวมมิตร 5. แกงส้มตำ
#1. ผัดไทย อาหารไทยในยุคปัจจุบันอย่างหนึ่งที่ได้รับความนิยมสูงสุดและแพร่หลายที่สุดผัดไทย เป็นอาหารประเภทผัดชนิดหนึ่งที่มีน้ำมันลอยอยู่ในกระทะ ซึ่งส่วนประกอบหลักของจานนี้ประกอบด้วยข้าวเหนียวหรือข้าวสวย ข้าวเหนียวเป็นวัตถุดิบหลักที่นำมาต้มในหม้อเพื่อทำให้สุก โดยใส่น้ำตาลมะพร้าว
#llama_print_timings: load time = 1575.70 ms
#llama_print_timings: sample time = 95.51 ms / 100 runs ( 0.96 ms per token, 1047.02 tokens per second)
#llama_print_timings: prompt eval time = 6624.56 ms / 7 tokens ( 946.37 ms per token, 1.06 tokens per second)
#llama_print_timings: eval time = 79716.26 ms / 99 runs ( 805.21 ms per token, 1.24 tokens per second)
#llama_print_timings: total time = 86498.58 ms
#Log end