一个 llm 高性能部署服务器

github:vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

部署 GPU 版本(预编译版本)

GPU — vLLM

uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm
uv run --with vllm vllm --help

编译部署 (MacOS、ARM等其他平台)

CPU — vLLM

uv venv --python 3.12 --seed
source .venv/bin/activate
 
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install -r requirements/cpu.txt
uv pip install -e .

运行 OpenAI API 服务器

vllm serve Qwen/Qwen3-32B