llm-推理引擎

  1. 大模型推理引擎
    1. vLLM
    2. TensoRT-LLM
    3. llama
    4. TGI
    5. SGLang
  2. 企业级应用方案
    1. 1. NV-NeMo
    2. 2. vLLM
    3. 3.Triton

大模型推理引擎

vLLM

中小企业级私有化部署首选方案

项目地址:

大模型的推理主要瓶颈在带宽上

现在阶段的NV GPU 计算速度 >> 数据吞吐速度

自回归模型会携带着每次的全文,每次推理只推一个Token,KVcahce缓存机制极大的加速了模型

梳理一下decoder模型的过程,

  1. 用户输入 -----> model ----> next_token > prefill 这一步是都要全量计算的

  2. 用户输入+[next_token,next_token++,…] ----> model —> next_token > Decode 这一部分就用 KV-Cache了

主要使用的技术: Paged KV + 连续调度

KV-cache

将GPU资源最大化利用

KV-Cache 演示

演示blog

K-V cache动画演示

使用 KV-Cache GPU只用很少的一部分需要计算,而且历史的K-V都会缓存,大大提升了计算的速度


  • 选 vLLM:标准 OpenAI API 服务、追求生态成熟度、希望少改造快速落地。

TensoRT-LLM

极致吞吐需求,比较新的NV显卡可以采用

比如 A100 / H100 / H200

TensorRT极致的推理速度,配合NV的高带宽显卡,能榨干所有的性能

llama

针对个人用户

TGI

Hugging Face

SGLang

项目地址:

SGLang 在Agent 时代推理有一些优势,因为上下文中有大量的tools和系统提示词相关信息,Agent、多轮对话、重复前缀很多、强 JSON/grammar 约束

  • 选 SGLang:Agent、多轮会话、共享前缀很多、强结构化输出、想自己做网关/路由/多模型调度

企业级应用方案

面向企业级的应用

1. NV-NeMo

项目地址:

2. vLLM

3.Triton

NV生态下的模型部署方案,配合trt-llm极限榨干nv生态的性能

github