Commits · main · academic / awesome / Awesome LLM System Papers

This project is mirrored from https://github.com/AmadeusChan/Awesome-LLM-System-Papers. Pull mirroring updated 28 minutes ago.

Mar 07, 2025
- Merge pull request #9 from skejriwal44/patch-1 · 69014124
  AmadeusChan authored 1 month ago
  
  Request to Add CacheCraft: A Relevant Work on Chunk-Aware KV Cache Reuse
  69014124
Mar 03, 2025

Request to Add CacheCraft: A Relevant Work on Chunk-Aware KV Cache Reuse for RAG · 3e6f37d6

skejriwal44 authored 1 month ago

Thanks for this great list! We’d love to add CacheCraft [PDF]—a chunk-aware KV reuse approach for RAG that minimizes redundant computation while preserving generation quality. Our work is concurrent to CacheBlend, with key differences in chunk-level reuse, selective recompute planning, and optimizations designed for real-world production systems. CacheCraft is accepted at SIGMOD 2025. We’re also open-sourcing a vLLM-based extension soon. Results on real RAG traces show strong efficiency gains in production.

3e6f37d6

Feb 21, 2025
- Update README.md · 8a2cf646
  AmadeusChan authored 1 month ago
  
  add the LLaMA-Factory project
  8a2cf646
- Update README.md · d1b6ed51
  AmadeusChan authored 1 month ago
  
  add deepseek technical reports
  d1b6ed51
- Update README.md · 3486331c
  AmadeusChan authored 1 month ago
  
  3486331c
Sep 05, 2024
- Merge pull request #8 from JYYHH/patch-1 · 9fcdaf46
  AmadeusChan authored 7 months ago
  
  Patch 1
  9fcdaf46
- Change the position of new added paper · 06653362
  JYYHH authored 7 months ago
  
  06653362
- Add paper: DeFT: Flash Tree-attention with IO-Awareness for Efficient... · d7dac51f
  JYYHH authored 7 months ago
  
  Add paper: DeFT: Flash Tree-attention with IO-Awareness for Efficient Tree-search-based LLM Inference
  d7dac51f
Aug 30, 2024
- Update README.md · 944329f6
  Zongpu Zhang authored 7 months ago
  
  Add mlc-llm
  944329f6
- Update README.md · 09b21c61
  Zongpu Zhang authored 7 months ago
  
  Add mobile papers
  09b21c61
- Update README.md · 1b8ba473
  Zongpu Zhang authored 7 months ago
  
  Add PowerInfer-2 and mlln-NPU
  1b8ba473
Apr 11, 2024
- Merge pull request #7 from feifeibear/0410 · 95c5c505
  AmadeusChan authored 1 year ago
  
  add PatrickStar
  95c5c505
Apr 10, 2024
- add PatrickStar · dac7621a
  feifeibear authored 1 year ago
  
  dac7621a
Apr 07, 2024
- fixed a link error · c856e08a
  AmadeusChan authored 1 year ago
  
  c856e08a
- added two new serving papers: DistServe and MuxServe · 5f9e16aa
  AmadeusChan authored 1 year ago
  
  5f9e16aa
- add TensorRT-LLM · 51dbbab9
  AmadeusChan authored 1 year ago
  
  51dbbab9
Apr 05, 2024
- added a serving paper · 9c668735
  AmadeusChan authored 1 year ago
  
  9c668735
Apr 04, 2024
- added the AlpaServe paper · 5817caed
  AmadeusChan authored 1 year ago
  
  5817caed
Mar 30, 2024
- added the FlexLLM paper · b73d35c6
  AmadeusChan authored 1 year ago
  
  b73d35c6
Mar 25, 2024
- Merge pull request #6 from merrymercy/patch-1 · 030320b9
  AmadeusChan authored 1 year ago
  
  Add SGLang
  030320b9
Mar 22, 2024
- Add SGLang · a763ecb7
  Lianmin Zheng authored 1 year ago
  
  a763ecb7
- Added a new serving paper · ac7409cd
  AmadeusChan authored 1 year ago
  
  ac7409cd
Mar 15, 2024
- Added a new survey paper from CMU && Added a few awsome open-sourced LLMSYS projects · 3abd0fe0
  AmadeusChan authored 1 year ago
  
  3abd0fe0
Feb 23, 2024

fixed a typo · c9328a4b
AmadeusChan authored 1 year ago

c9328a4b

Update README.md · 7670100e

AmadeusChan authored 1 year ago

Merge the distributed/single-node serving paper list since nowadays almost all new systems support multi-GPU processing with tensor or pipeline parallelism. Also added a new paper from Cal.

7670100e

Feb 22, 2024
- Update README.md · 11d0a75d
  AmadeusChan authored 1 year ago
  
  11d0a75d
Feb 20, 2024
- Update README.md · 06329fa3
  AmadeusChan authored 1 year ago
  
  06329fa3
Jan 18, 2024
- Update README.md · ae3b0d8d
  AmadeusChan authored 1 year ago
  
  ae3b0d8d
- Update README.md · f09d6c08
  AmadeusChan authored 1 year ago
  
  f09d6c08
Jan 04, 2024
- Update README.md · b24bd93b
  AmadeusChan authored 1 year ago
  
  b24bd93b
Dec 28, 2023
- added an interesting flash-based inference paper from Apple · c1cfe0ca
  AmadeusChan authored 1 year ago
  
  c1cfe0ca
Dec 27, 2023
- Update README.md · 711ee57d
  AmadeusChan authored 1 year ago
  
  711ee57d
Dec 24, 2023
- added a inference paper from UW and MSR · 1582e69e
  AmadeusChan authored 1 year ago
  
  1582e69e
Dec 22, 2023
- Added a new paper for LLM inference · 4b63a1b0
  AmadeusChan authored 1 year ago
  
  4b63a1b0
Dec 19, 2023
- Added a new inference paper from SJTU-IPDAS · f38c6d1c
  AmadeusChan authored 1 year ago
  
  f38c6d1c
Nov 29, 2023
- added the InstructGPT paper to the algorithm section · f91a8e6d
  AmadeusChan authored 1 year ago
  
  f91a8e6d
Nov 28, 2023
- added another LoRA serving paper from Cal · add282b2
  AmadeusChan authored 1 year ago
  
  add282b2
- added a new serving paper that multiplexs multiple LoRA models · 064a09c0
  AmadeusChan authored 1 year ago
  
  064a09c0
Nov 27, 2023
- Added two papers (lora and gshard) and an efficient ML course · 864c7366
  AmadeusChan authored 1 year ago
  
  864c7366
Nov 15, 2023
- Update README.md · 9f726001
  AmadeusChan authored 1 year ago
  
  9f726001