knifeayumu
/

Llama-3.1-Herrsimian-8B-GGUF

Inference Endpoints

Model card Files Files and versions Community

Llama-3.1-Herrsimian-8B-GGUF / README.md

knifeayumu's picture

Update README.md

63c2130 verified 24 days ago

|

history blame contribute delete

No virus

2.53 kB

	---
	base_model:
	- lemonilia/Llama-3.1-Herrsimian-8B
	language:
	- en
	library_name: transformers
	license: llama3.1
	quantized_by: knifeayumu
	---

	## Llamacpp Quantizations of Llama-3.1-Herrsimian-8B

	Using <a href="https://github.com/ggerganov/llama.cpp/">llama.cpp</a> release <a href="https://github.com/ggerganov/llama.cpp/releases/tag/b3703">b3703</a> for quantization.

	Original model: https://huggingface.co/lemonilia/Llama-3.1-Herrsimian-8B


	## Quant Types:

	\| Filename \| Quant type \| File Size \| Required VRAM at 32k ctx \|
	\| -------- \| ---------- \| --------- \| ------------------------ \|
	\| [Llama-3.1-Herrsimian-8B-F16.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-F16.gguf) \| F16 \| 14.9GB \| 18.6GB \|
	\| [Llama-3.1-Herrsimian-8B-Q8_0.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q8_0.gguf) \| Q8_0 \| 7.95GB \| 14.0GB \|
	\| [Llama-3.1-Herrsimian-8B-Q6_K.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q6_K.gguf) \| Q6_K \| 6.14GB \| 12.2GB \|
	\| [Llama-3.1-Herrsimian-8B-Q5_K_M.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q5_K_M.gguf) \| Q5_K_M \| 5.33GB \| 11.4GB \|
	\| [Llama-3.1-Herrsimian-8B-Q5_K_S.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q5_K_S.gguf) \| Q5_K_S \| 5.21GB \| 11.3GB \|
	\| [Llama-3.1-Herrsimian-8B-Q4_K_M.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q4_K_M.gguf) \| Q4_K_M \| 4.58GB \| 10.6GB \|
	\| [Llama-3.1-Herrsimian-8B-Q4_K_S.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q4_K_S.gguf) \| Q4_K_S \| 4.37GB \| 10.4GB \|
	\| [Llama-3.1-Herrsimian-8B-Q3_K_L.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q3_K_L.gguf) \| Q3_K_L \| 4.02GB \| 10.1GB \|
	\| [Llama-3.1-Herrsimian-8B-Q3_K_M.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q3_K_M.gguf) \| Q3_K_M \| 3.74GB \| 9.7GB \|
	\| [Llama-3.1-Herrsimian-8B-Q3_K_S.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q3_K_S.gguf) \| Q3_K_S \| 3.41GB \| 9.4GB \|
	\| [Llama-3.1-Herrsimian-8B-Q2_K.gguf](https://huggingface.co/knifeayumu/Llama-3.1-Herrsimian-8B-GGUF/blob/main/Llama-3.1-Herrsimian-8B-Q2_K.gguf) \| Q2_K \| 2.95GB \| 9.2GB \|