vLLM 容器化部署大模型

青萍叙事2025-04-19

1️⃣ 单机部署模型 🖥️

docker run --runtime nvidia \
--gpus all --name vllm \
-v /mnt/model:/root/model \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest \
--model /root/model/DeepSeek-R1-Distill-Qwen-1.5B \
--served-model-name DeepSeek-R1-1.5B

需提前部署好docker的nvidia环境，可参考官方文档：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈

2️⃣ 分布式部署模型 🌐

▌Master 节点 📦

docker run --entrypoint /bin/bash \
--network host \
--name master \
--shm-size 10.24g \
--gpus all \
--ipc=host \
-v /mnt:/root/model \
-e VLLM_HOST_IP=${MASTER_IP} \
vllm/vllm-openai:latest \
-c 'ray start --block --head --port=6379'

▌Worker 节点 ⚙️

docker run \
--entrypoint /bin/bash \
--network host \
--name node \
--shm-size 10.24g \
--gpus all \
--ipc=host \
-v /mnt:/root/model \
-e VLLM_HOST_IP=${WORKER_IP} \
vllm/vllm-openai:latest \
-c 'ray start --block --address=${MASTER_IP}:6379'

┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈

3️⃣ 服务启动流程 🚀

# 进入容器内
# docker exec -it master bash
# 启动命令
vllm serve /root/model/DeepSeek-R1-Distill-Qwen-32B \
--served-model-name DeepSeek-R1-32B \
--tensor-parallel-size 2 \
--pipeline-parallel-size 2

┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈┈

🌰 关键参数说明

• tensor-parallel-size ➜ 显卡数量

• pipeline-parallel-size ➜ 节点数量