neuralmagic
/

TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds

Text Generation

text-generation-inference

Model card Files Files and versions Community

TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds

2 contributors

History: 14 commits

mwitiderrick's picture

Create onnx_kv_inject.py

d9b2258 10 months ago