vLLM-oneAPI-LLM本地部署方案

ML > solution ml llm vLLM

发布时间 : 2026-01-09 10:52

字数:447 阅读 :

私有化部署模型
1. 需求
  1. 原始需求【困难】
  2. 实验简化【test】
2. 方案
  1. 原始
  2. 简化
实施
1. 创建资源
2. 编写服务
验收

私有化部署模型

我们模拟一个客户的需求，做一个需求模拟与分析，并做一个实验并测试

需求

私有化部署LLM模型，需求如下:

原始需求【困难】

精度支持:

FP8
INT8
FP16

能切换精度

量化方案支持:

E4M3
E5M2

模型要求:

Qwen3-32B
Qwen3-14B-Instruct

Agent方案

Agent 类型	模型参数	输入 Token 数量	输出 Token 数量	数量
主 Agent	Qwen3 32B	3000-20000	≤700	1
子 Agent	Qwen3 32B	3000-10000	≤800	3
子Agent	Qwen3 14B	3000-10000	≤800	4

指标类型	要求值	说明
并发处理能力（QPS）	峰值≥100	多用户并发请求场景下稳定达标
首次 Token 输出时间（TTFT）	≤3000ms	从请求发起至首个输出 Token 的响应时间
后续 Token 输出时间（TPOT）	20ms～30ms	连续输出 Token 的平均间隔时间
端到端推理时间	5s～6s	7 个子 Agent 并行执行 + 主 Agent 串行执行总耗时

实验简化【test】

精度支持:

INT8
FP16
- E4M3
- E5M2

能切换精度

量化方案支持:

模型要求:

Qwen3-32B
Qwen3-14B-Instruct

方案

原始

只能上 K8S + Kserver + API Gateway

这个要求比较高，需要后面评估

简化

硬件

H100 * 2

A100 * 4

Azure 选型

编排

手动编排，编写脚本【不会k8s】

推理方案

NV Trition

推理引擎

vLLM
tensorRT-LLM

代理与负载均衡

lite-llm
vLLM-router

网关管理

one-api 【简单的做法】
Higress 【阿里开源的API网关管理】

监控方案

Prometheus 【数据监控】
Grafana 【可视化】
DCGM Exporter 【NV GPU监控】

其实这一套做下来也是很复杂的，这就是一套标准的云原生方案

测试工具

vLLM benchmark

架构如下

大致如下

服务架构

实施

只做简单的，难得不会

vLLM-oneAPI-LLM本地部署方案

私有化部署模型

需求

原始需求【困难】

实验简化【test】

方案

原始

简化

实施

创建资源

编写服务

验收