leafspark
/

Reflection-Llama-3.1-70B-GGUF

Text Generation

Inference Endpoints

Model card Files Files and versions Community

leafspark commited on Sep 9

Commit

c8908ad

•

1 Parent(s): 52249b8

Add metadata

Files changed (1) hide show

README.md +28 -6

README.md CHANGED Viewed

@@ -2,6 +2,15 @@
 license: llama3.1
 language:
 - en
 base_model: mattshumer/ref_70_e3
 pipeline_tag: text-generation
 library_name: ggml
@@ -22,22 +31,35 @@ GGUF quantized models of [mattshumer/ref_70_e3](https://huggingface.co/mattshume
 | Quantization | Size   | Split | iMatrix |
 | ------------ | ------ | ----- | ------- |
 | FP16         | 141GB  | true  | false   |
-| Q8_0_L       | 73GB   | true  | false   |
-| Q6_K_L       | 56.2GB | true  | false   |
 | Q6_K         | ??.?GB | true  | false   |
 | Q5_K_L       | 52.6GB | true  | false   |
 | Q5_K_M       | ??.?GB | true  | false   |
-| Q5_K_S       | ??.?GB | false | false   |
-| Q4_K_L       | 42.1GB | false | false   |
 | Q4_K_M       | ??.?GB | false | false   |
 | Q4_K_S       | ??.?GB | false | false   |
-| Q3_K_XL      | ??.?GB | false | false   |
-| Q3_K_L       | 40GB   | false | false   |
 | Q3_K_M       | ??.?GB | false | false   |
 | Q3_K_S       | ??.?GB | false | false   |
 | Q2_K_L       | 29.4GB | false | false   |
 | Q2_K         | ??.?GB | false | false   |
 | Q2_K_S       | ??.?GB | false | true    |
 The `_L` or `_XL` suffix means that the token embeddings and output weight are at fp16 precision.

 license: llama3.1
 language:
 - en
+- de
+- fr
+- it
+- pt
+- hi
+- es
+- th
+tags:
+- llama
 base_model: mattshumer/ref_70_e3
 pipeline_tag: text-generation
 library_name: ggml
 | Quantization | Size   | Split | iMatrix |
 | ------------ | ------ | ----- | ------- |
 | FP16         | 141GB  | true  | false   |
+| Q8_0_L       | ??.?GB | true  | false   |
+| Q8_0         | ??.?GB | true  | false   |
+| Q6_K_L       | ??.?GB | true  | false   |
 | Q6_K         | ??.?GB | true  | false   |
 | Q5_K_L       | 52.6GB | true  | false   |
 | Q5_K_M       | ??.?GB | true  | false   |
+| Q5_K_S       | 48.7GB | false | false   |
+| Q4_K_L       | 45.3GB | false | false   |
 | Q4_K_M       | ??.?GB | false | false   |
 | Q4_K_S       | ??.?GB | false | false   |
+| IQ4_NL       | ??.?GB | false | true    |
+| IQ4_XS       | ??.?GB | false | true    |
+| Q3_K_XL      | 37.2GB | false | false   |
+| Q3_K_L       | ??.?GB | false | false   |
 | Q3_K_M       | ??.?GB | false | false   |
+| IQ3_M        | ??.?GB | false | true    |
 | Q3_K_S       | ??.?GB | false | false   |
+| IQ3_S        | ??.?GB | false | true    |
 | Q2_K_L       | 29.4GB | false | false   |
+| IQ3_XS       | ??.?GB | false | true    |
+| IQ3_XXS      | ??.?GB | false | true    |
 | Q2_K         | ??.?GB | false | false   |
 | Q2_K_S       | ??.?GB | false | true    |
+| IQ2_M        | ??.?GB | false | true    |
+| IQ2_S        | ??.?GB | false | true    |
+| IQ2_XS       | ??.?GB | false | true    |
+| IQ2_XXS      | ??.?GB | false | true    |
+| IQ1_M        | ??.?GB | false | true    |
+| IQ1_S        | ??.?GB | false | true    |
 The `_L` or `_XL` suffix means that the token embeddings and output weight are at fp16 precision.