2 21 73

neuralink

AI & ML interests

None yet

Recent Activity

upvoted a paper 1 day ago

reacted to ArthurZ's post with 🔥 1 day ago

liked a model about 2 months ago

meta-llama/Llama-3.2-11B-Vision

Articles

A failed experiment: Infini-Attention, and why we should keep trying?

Aug 14

• 50

Organizations

neuralink's activity

upvoted a paper 1 day ago

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22 • 254

upvoted a paper 2 months ago

Small-scale proxies for large-scale Transformer training instabilities

Paper • 2309.14322 • Published Sep 25, 2023 • 19

upvoted an article 3 months ago

Article

How NuminaMath Won the 1st AIMO Progress Prize

Jul 11

• 104

upvoted a paper 3 months ago

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Paper • 2201.02177 • Published Jan 6, 2022 • 2

upvoted an article 3 months ago

Article

A failed experiment: Infini-Attention, and why we should keep trying?

Aug 14

• 50

upvoted 2 papers 3 months ago

Grokfast: Accelerated Grokking by Amplifying Slow Gradients

Paper • 2405.20233 • Published May 30 • 6

Transformer Explainer: Interactive Learning of Text-Generative Models

Paper • 2408.04619 • Published Aug 8 • 155

upvoted 2 papers 5 months ago

What matters when building vision-language models?

Paper • 2405.02246 • Published May 3 • 99

DiPaCo: Distributed Path Composition

Paper • 2403.10616 • Published Mar 15 • 12

upvoted an article 5 months ago

Article

Putting RL back in RLHF

Jun 12

• 62

upvoted an article 6 months ago

Article

Let's talk about LLM evaluation

•

May 23

• 134

upvoted 3 papers 8 months ago

upvoted 2 papers 9 months ago

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Paper • 2402.15627 • Published Feb 23 • 34

FP8-LM: Training FP8 Large Language Models

Paper • 2310.18313 • Published Oct 27, 2023 • 31

upvoted a paper 10 months ago

Zero Bubble Pipeline Parallelism

Paper • 2401.10241 • Published Nov 30, 2023 • 23

upvoted a paper 11 months ago

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

Paper • 2312.17172 • Published Dec 28, 2023 • 26

upvoted 2 papers about 1 year ago

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Paper • 2306.16527 • Published Jun 21, 2023 • 47

RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 14