Collections

1

-

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Paper • 2311.08692 • Published Nov 15, 2023 • 12

10

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 143
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17 • 27
Tuning Language Models by Proxy

Paper • 2401.08565 • Published Jan 16 • 20
TrustLLM: Trustworthiness in Large Language Models

Paper • 2401.05561 • Published Jan 10 • 64

-

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Paper • 2311.08692 • Published Nov 15, 2023 • 12
DiLoCo: Distributed Low-Communication Training of Language Models

Paper • 2311.08105 • Published Nov 14, 2023 • 14
System 2 Attention (is something you might need too)

Paper • 2311.11829 • Published Nov 20, 2023 • 39
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Paper • 2312.06134 • Published Dec 11, 2023 • 2

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

LLM Blender

TheBloke/llemma_7b-GGUF

quantumaikr/quantum-v0.01

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Self-Rewarding Language Models

ReFT: Reasoning with Reinforced Fine-Tuning

Tuning Language Models by Proxy

TrustLLM: Trustworthiness in Large Language Models

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

DiLoCo: Distributed Low-Communication Training of Language Models

System 2 Attention (is something you might need too)

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Exponentially Faster Language Modelling

Memory Augmented Language Models through Mixture of Word Experts

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference

Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference

EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

Diversity of Thought Improves Reasoning Abilities of Large Language Models

AutoMix: Automatically Mixing Language Models

SAI: Solving AI Tasks with Systematic Artificial Intelligence in Communication Network

Moral Foundations of Large Language Models

Specific versus General Principles for Constitutional AI

Contrastive Prefence Learning: Learning from Human Feedback without RL

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Eureka: Human-Level Reward Design via Coding Large Language Models

GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

PolyMaX: General Dense Prediction with Mask Transformer

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Mixtral of Experts

Mistral 7B

Don't Make Your LLM an Evaluation Benchmark Cheater