大模型并发加速部署 解析当前应用较广的几种并发加速部署方案!
llama.cpp
、vllm
、lightllm
、fastllm
四种框架的对比:
llama.cpp
:基于C++,①请求槽,②动态批处理,③CPU/GPU混合推理vllm
:基于Python,①PagedAttention高效管理注意力KV内存,②连续动态批处理,③量化GPTQ/AWQ/SqueezeLLM等。lightllm
:基于Python,①三进程异步协作,②动态批处理,③FlashAttention,④TokenAttention,⑤高性能Router。fastllm
:基于C++,①ARM平台支持NEON指令集加速,②X86平台支持AVX指令集加速,③NVIDIA平台支持CUDA加速,与llama.cpp很类似。
- llama.cpp
- vllm
- lightLLM
- fastLLM
llama.cpp
vllm