llm-推理引擎

ML > basic ml

发布时间 : 2025-12-26 14:36

字数:352 阅读 :

大模型推理引擎
企业级应用方案

大模型推理引擎

vLLM

中小企业级私有化部署首选方案

项目地址:

vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

大模型的推理主要瓶颈在带宽上

现在阶段的NV GPU 计算速度 >> 数据吞吐速度

自回归模型会携带着每次的全文，每次推理只推一个Token，KVcahce缓存机制极大的加速了模型

梳理一下decoder模型的过程，

用户输入 -----> model ----> next_token > prefill 这一步是都要全量计算的

用户输入+[next_token,next_token++,…] ----> model —> next_token > Decode 这一部分就用 KV-Cache了

主要使用的技术： Paged KV + 连续调度

KV-cache

将GPU资源最大化利用

KV-Cache 演示

演示blog

Transformers KV Caching Explained | by João Lages | Medium

K-V cache动画演示

使用 KV-Cache GPU只用很少的一部分需要计算，而且历史的K-V都会缓存，大大提升了计算的速度

TensoRT-LLM

极致吞吐需求，比较新的NV显卡可以采用

比如 A100 / H100 / H200

TensorRT极致的推理速度，配合NV的高带宽显卡，能榨干所有的性能

llama

针对个人用户

TGI

Hugging Face

企业级应用方案

面向企业级的应用

1. NV-NeMo