Phú Võ's picture

73 11

Phú Võ

phuvo

·

phuvo

AI & ML interests

None yet

Organizations

None yet

phuvo's activity

upvoted 5 papers about 1 month ago

Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1 • 143

Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Paper • 2409.18943 • Published Sep 27 • 26

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Paper • 2409.17066 • Published Sep 25 • 27

MIO: A Foundation Model on Multimodal Tokens

Paper • 2409.17692 • Published Sep 26 • 49

Emu3: Next-Token Prediction is All You Need

Paper • 2409.18869 • Published Sep 27 • 89

upvoted a paper 2 months ago

OLMoE: Open Mixture-of-Experts Language Models

Paper • 2409.02060 • Published Sep 3 • 77

upvoted 3 papers 3 months ago

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Paper • 2408.07055 • Published Aug 13 • 65

SAM 2: Segment Anything in Images and Videos

Paper • 2408.00714 • Published Aug 1 • 107

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 105

upvoted 6 papers 4 months ago

Scalify: scale propagation for efficient low-precision LLM training

Paper • 2407.17353 • Published Jul 24 • 11

Scaling Granite Code Models to 128K Context

Paper • 2407.13739 • Published Jul 18 • 19

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Paper • 2407.11062 • Published Jul 10 • 8

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

Paper • 2407.12327 • Published Jul 17 • 77

Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15 • 155

Unveiling Encoder-Free Vision-Language Models

Paper • 2406.11832 • Published Jun 17 • 49

upvoted 3 papers 5 months ago

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

Paper • 2406.17419 • Published Jun 25 • 16

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Paper • 2406.12066 • Published Jun 17 • 8

An Image is Worth 32 Tokens for Reconstruction and Generation

Paper • 2406.07550 • Published Jun 11 • 55

upvoted a paper 6 months ago

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Paper • 2405.15071 • Published May 23 • 37

upvoted a paper 7 months ago

BLINK: Multimodal Large Language Models Can See but Not Perceive

Paper • 2404.12390 • Published Apr 18 • 24