meta-llama
/

Llama-3.1-405B-Instruct

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

8-kv-heads

#17

by ArthurZ HF staff - opened Aug 1

base: refs/heads/main

←

from: refs/pr/17

Discussion Files changed

ArthurZ

Meta Llama org Aug 1

No description provided.

Upload config.json with huggingface_hub26abbcb6

Upload model-00001-of-00191.safetensors with huggingface_hubf54c67b4

Upload model-00003-of-00191.safetensors with huggingface_hubd8e061a3

Upload model-00004-of-00191.safetensors with huggingface_hubd3ec932f

Upload model-00006-of-00191.safetensors with huggingface_hub09193939

Upload model-00007-of-00191.safetensors with huggingface_hub28b8c72b

Upload model-00009-of-00191.safetensors with huggingface_hubb5bc0e9a

Upload model-00010-of-00191.safetensors with huggingface_hubc349be0b

Upload model-00012-of-00191.safetensors with huggingface_hub98f1d7ee

Upload model-00013-of-00191.safetensors with huggingface_hubeaa8fb85

Upload model-00015-of-00191.safetensors with huggingface_hubaa9dc2f5

Upload model-00016-of-00191.safetensors with huggingface_hub1976e54e

Upload model-00018-of-00191.safetensors with huggingface_hubce2c3002

Upload model-00019-of-00191.safetensors with huggingface_hube27fcbdf

Upload model-00021-of-00191.safetensors with huggingface_hubdd6d0740

Upload model-00022-of-00191.safetensors with huggingface_hubf1448ebc

Upload model-00024-of-00191.safetensors with huggingface_hubd9ce442a

Upload model-00025-of-00191.safetensors with huggingface_hub463eb86f

Upload model-00027-of-00191.safetensors with huggingface_hub5e21fd3e

Upload model-00028-of-00191.safetensors with huggingface_hub4f29790f

Upload model-00030-of-00191.safetensors with huggingface_hub60995ae2

Upload model-00031-of-00191.safetensors with huggingface_hub4aa39b02

Upload model-00033-of-00191.safetensors with huggingface_hub68be7f37

Upload model-00034-of-00191.safetensors with huggingface_hubc459e9e1

Upload model-00036-of-00191.safetensors with huggingface_hubcc835377

Upload model-00037-of-00191.safetensors with huggingface_hub3bfacc88

Upload model-00039-of-00191.safetensors with huggingface_hubc0c8d869

Upload model-00040-of-00191.safetensors with huggingface_hub3f0ab604

Upload model-00042-of-00191.safetensors with huggingface_hubad0e59aa

Upload model-00043-of-00191.safetensors with huggingface_hube11e4fc1

Upload model-00045-of-00191.safetensors with huggingface_hub0f769337

Upload model-00046-of-00191.safetensors with huggingface_hubf3996e28

Upload model-00048-of-00191.safetensors with huggingface_hube8c94487

Upload model-00049-of-00191.safetensors with huggingface_hub4c48b168

Upload model-00051-of-00191.safetensors with huggingface_hubfdc1adc1

Upload model-00052-of-00191.safetensors with huggingface_hub8bff9c8d

Upload model-00054-of-00191.safetensors with huggingface_hub11827cc4

Upload model-00055-of-00191.safetensors with huggingface_hub036b564e

Upload model-00057-of-00191.safetensors with huggingface_hub5297901b

Upload model-00058-of-00191.safetensors with huggingface_hubb601d221

Upload model-00060-of-00191.safetensors with huggingface_hub6243fddb

Upload model-00061-of-00191.safetensors with huggingface_hub78d62a34

Upload model-00063-of-00191.safetensors with huggingface_hub4349469f

Upload model-00064-of-00191.safetensors with huggingface_hub38da7339

Upload model-00066-of-00191.safetensors with huggingface_hub67daa9f6

Upload model-00067-of-00191.safetensors with huggingface_hub9ddc4f52

Upload model-00069-of-00191.safetensors with huggingface_hub19eb49d0

Upload model-00070-of-00191.safetensors with huggingface_hub4c52cf4e

Upload model-00072-of-00191.safetensors with huggingface_hub7e441c95

Upload model-00073-of-00191.safetensors with huggingface_hubf525b54c

Upload model-00075-of-00191.safetensors with huggingface_hub541e7a0b

Upload model-00076-of-00191.safetensors with huggingface_hubafdd04a3

Upload model-00078-of-00191.safetensors with huggingface_hub0a6afcb4

Upload model-00079-of-00191.safetensors with huggingface_hub16722eca

Upload model-00081-of-00191.safetensors with huggingface_hub86d86096

Upload model-00082-of-00191.safetensors with huggingface_hubfc5dad8a

Upload model-00084-of-00191.safetensors with huggingface_hub8087337d

Upload model-00085-of-00191.safetensors with huggingface_hub2d9559dc

Upload model-00087-of-00191.safetensors with huggingface_hub44048e26

Upload model-00088-of-00191.safetensors with huggingface_hub50a3e95f

Upload model-00090-of-00191.safetensors with huggingface_hub002d3acc

Upload model-00091-of-00191.safetensors with huggingface_hubc33d6597

Upload model-00093-of-00191.safetensors with huggingface_hub7befec6c

Upload model-00094-of-00191.safetensors with huggingface_hub39f73b4a

Upload model-00096-of-00191.safetensors with huggingface_hubebae944a

Upload model-00097-of-00191.safetensors with huggingface_hubfcbfa382

Upload model-00099-of-00191.safetensors with huggingface_hubd6be24ed

Upload model-00100-of-00191.safetensors with huggingface_hub9b15ce8e

Upload model-00102-of-00191.safetensors with huggingface_hubd3937fb2

Upload model-00103-of-00191.safetensors with huggingface_hub78ed54a2

Upload model-00105-of-00191.safetensors with huggingface_hubf2682f2a

Upload model-00106-of-00191.safetensors with huggingface_hub9d41da91

Upload model-00108-of-00191.safetensors with huggingface_hube42b6785

Upload model-00109-of-00191.safetensors with huggingface_hub58d200e5

Upload model-00111-of-00191.safetensors with huggingface_hub85b47c50

Upload model-00112-of-00191.safetensors with huggingface_hubdfe80c9c

Upload model-00114-of-00191.safetensors with huggingface_hubd9f49d95

Upload model-00115-of-00191.safetensors with huggingface_hubd74ba138

Upload model-00117-of-00191.safetensors with huggingface_hub9aec8ba7

Upload model-00118-of-00191.safetensors with huggingface_hubb1f881ee

Upload model-00120-of-00191.safetensors with huggingface_hub9812c1f4

Upload model-00121-of-00191.safetensors with huggingface_hub3671c76e

Upload model-00123-of-00191.safetensors with huggingface_hubbf2c82d6

Upload model-00124-of-00191.safetensors with huggingface_hub4bcac7ed

Upload model-00126-of-00191.safetensors with huggingface_hub56f73ebb

Upload model-00127-of-00191.safetensors with huggingface_hub6eda5853

Upload model-00129-of-00191.safetensors with huggingface_hubc2ac4623

Upload model-00130-of-00191.safetensors with huggingface_hube0dd11da

Upload model-00132-of-00191.safetensors with huggingface_hubbe68206b

Upload model-00133-of-00191.safetensors with huggingface_hub3754e004

Upload model-00135-of-00191.safetensors with huggingface_hub723a762c

Upload model-00136-of-00191.safetensors with huggingface_hub44269401

Upload model-00138-of-00191.safetensors with huggingface_hub891e0497

Upload model-00139-of-00191.safetensors with huggingface_hub83eb994c

Upload model-00141-of-00191.safetensors with huggingface_hub747ca3b8

Upload model-00142-of-00191.safetensors with huggingface_hub7dbf69bc

Upload model-00144-of-00191.safetensors with huggingface_hub3d7fef56

Upload model-00145-of-00191.safetensors with huggingface_hub226c3a95

Upload model-00147-of-00191.safetensors with huggingface_hub235d11cc

Upload model-00148-of-00191.safetensors with huggingface_hub317868d8

Upload model-00150-of-00191.safetensors with huggingface_hub0aaf41b5

Upload model-00151-of-00191.safetensors with huggingface_hub08c2307e

Upload model-00153-of-00191.safetensors with huggingface_hub60bd9829

Upload model-00154-of-00191.safetensors with huggingface_hubc1ab4a91

Upload model-00156-of-00191.safetensors with huggingface_hub452d549a

Upload model-00157-of-00191.safetensors with huggingface_hub6de51f0e

Upload model-00159-of-00191.safetensors with huggingface_hubd87c90cf

Upload model-00160-of-00191.safetensors with huggingface_hubcec6f5bb

Upload model-00162-of-00191.safetensors with huggingface_hubcca9ebde

Upload model-00163-of-00191.safetensors with huggingface_hub91efbac3

Upload model-00165-of-00191.safetensors with huggingface_hub9c54d4d1

Upload model-00166-of-00191.safetensors with huggingface_hubac5a30e7

Upload model-00168-of-00191.safetensors with huggingface_hub93e34352

Upload model-00169-of-00191.safetensors with huggingface_hub2c5f6bdf

Upload model-00171-of-00191.safetensors with huggingface_hub2a539f3a

Upload model-00172-of-00191.safetensors with huggingface_hubef77b085

Upload model-00174-of-00191.safetensors with huggingface_hub2c85daf2

Upload model-00175-of-00191.safetensors with huggingface_hubf2115125

Upload model-00177-of-00191.safetensors with huggingface_hub5eda4ca5

Upload model-00178-of-00191.safetensors with huggingface_hub91a1c781

Upload model-00180-of-00191.safetensors with huggingface_hubc15343b9

Upload model-00181-of-00191.safetensors with huggingface_hub6ed0307d

Upload model-00183-of-00191.safetensors with huggingface_huba2c17179

Upload model-00184-of-00191.safetensors with huggingface_hubb0eefe1d

Upload model-00186-of-00191.safetensors with huggingface_hub983b22b8

Upload model-00187-of-00191.safetensors with huggingface_hub45fb296d

Upload model-00189-of-00191.safetensors with huggingface_hubd5aa94c1

Upload model.safetensors.index.json with huggingface_hub62f58446

mgoin

Aug 8

@ArthurZ are you going to land this soon?

Aug 9

@ArthurZ I'm waiting on this as well.

ArthurZ changed pull request status to open Aug 9

ArthurZ changed pull request status to merged Aug 9

Meta Llama org Aug 15

Can you explain the precise rationale on why this change was made? The reason this configuration existed is that a 405b model at bf16 isn't loadable on 8 GPUs on any hardware we knew. Is the intended use case one where the weights are loaded and then dynamically quantized and then this configuration leads to faster and more efficient loads since the duplicate heads aren't needed?

Aug 26

Can you please explain why this change was made? This is causing OOM as 405-instruct is not getting loaded into 8 devices.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment