Efficient Serving/Inference - a floom Collection

floom 's Collections

Coding

ICL

RL

Agents

NLU

RAG

Data Efficient Approaches

Personalization

sentence-transformer-models

Tool Use & more

Feedback Analysis

Memory

SSM

Efficient Serving/Inference

Synthetic Data Generation

Frontier research ideas

Efficient Serving/Inference

updated Jul 13

MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Paper • 2406.17565 • Published Jun 25 • 5
Inference Performance Optimization for Large Language Models on CPUs

Paper • 2407.07304 • Published Jul 10 • 52