llm-推理引擎

ML > basic ml

发布时间 : 2025-12-26 14:36

字数:503 阅读 :

大模型推理引擎
企业级应用方案

大模型推理引擎

vLLM

中小企业级私有化部署首选方案

项目地址:

vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

大模型的推理主要瓶颈在带宽上

现在阶段的NV GPU 计算速度 >> 数据吞吐速度

自回归模型会携带着每次的全文，每次推理只推一个Token，KVcahce缓存机制极大的加速了模型

梳理一下decoder模型的过程，

用户输入 -----> model ----> next_token > prefill 这一步是都要全量计算的

用户输入+[next_token,next_token++,…] ----> model —> next_token > Decode 这一部分就用 KV-Cache了

主要使用的技术： Paged KV + 连续调度

KV-cache

将GPU资源最大化利用

KV-Cache 演示

演示blog

Transformers KV Caching Explained | by João Lages | Medium

K-V cache动画演示

使用 KV-Cache GPU只用很少的一部分需要计算，而且历史的K-V都会缓存，大大提升了计算的速度

选 vLLM：标准 OpenAI API 服务、追求生态成熟度、希望少改造快速落地。

TensoRT-LLM

极致吞吐需求，比较新的NV显卡可以采用

比如 A100 / H100 / H200

TensorRT极致的推理速度，配合NV的高带宽显卡，能榨干所有的性能

llama

针对个人用户

TGI

Hugging Face

SGLang

项目地址:

sgl-project/sglang: SGLang is a high-performance serving framework for large language models and multimodal models.

SGLang 在Agent 时代推理有一些优势，因为上下文中有大量的tools和系统提示词相关信息，Agent、多轮对话、重复前缀很多、强 JSON/grammar 约束

选 SGLang：Agent、多轮会话、共享前缀很多、强结构化输出、想自己做网关/路由/多模型调度

企业级应用方案

面向企业级的应用

1. NV-NeMo

项目地址:

NVIDIA-NeMo/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)

2. vLLM

3.Triton

NV生态下的模型部署方案，配合trt-llm极限榨干nv生态的性能