Someone13574's picture

8 27 5

Someone13574

someone13574

·

someone13574

AI & ML interests

None yet

Organizations

None yet

someone13574's activity

upvoted a paper 4 months ago

GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

Paper • 2407.12077 • Published Jul 16 • 54

upvoted 2 papers 7 months ago

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 84

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

Paper • 2404.05892 • Published Apr 8 • 31

upvoted 2 papers 8 months ago

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 602

Watermarking Makes Language Models Radioactive

Paper • 2402.14904 • Published Feb 22 • 22

upvoted 5 papers 9 months ago

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Paper • 2402.13753 • Published Feb 21 • 111

BlackMamba: Mixture of Experts for State-Space Models

Paper • 2402.01771 • Published Feb 1 • 23

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper • 2401.15024 • Published Jan 26 • 68

Learning Universal Predictors

Paper • 2401.14953 • Published Jan 26 • 18

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25 • 46

upvoted 6 papers 10 months ago

Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding

Paper • 2401.12954 • Published Jan 23 • 28

Transformers are Multi-State RNNs

Paper • 2401.06104 • Published Jan 11 • 35

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

Paper • 2401.05335 • Published Jan 10 • 26

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8 • 70

TinyLlama: An Open-Source Small Language Model

Paper • 2401.02385 • Published Jan 4 • 89

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Paper • 2312.16256 • Published Dec 26, 2023 • 15

upvoted 4 papers 11 months ago

Cascade Speculative Drafting for Even Faster LLM Inference

Paper • 2312.11462 • Published Dec 18, 2023 • 8

Weight subcloning: direct initialization of transformers using larger pretrained ones

Paper • 2312.09299 • Published Dec 14, 2023 • 17

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning

Paper • 2312.01552 • Published Dec 4, 2023 • 30

Magicoder: Source Code Is All You Need

Paper • 2312.02120 • Published Dec 4, 2023 • 79