vllm

一个 llm 高性能部署服务器

github：vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

部署 GPU 版本（预编译版本）

GPU — vLLM

uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm
uv run --with vllm vllm --help

编译部署（MacOS、ARM等其他平台）

CPU — vLLM

uv venv --python 3.12 --seed
source .venv/bin/activate
 
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install -r requirements/cpu.txt
uv pip install -e .

运行 OpenAI API 服务器

vllm serve Qwen/Qwen3-32B

阿森知识库

探索

vllm

部署 GPU 版本（预编译版本）

编译部署（MacOS、ARM等其他平台）

运行 OpenAI API 服务器

关系图谱

目录

阿森知识库

探索

vllm

部署 GPU 版本（预编译版本）

编译部署 （MacOS、ARM等其他平台）

运行 OpenAI API 服务器

关系图谱

目录

编译部署（MacOS、ARM等其他平台）