一个 llm 高性能部署服务器
github:vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs
部署 GPU 版本(预编译版本)
uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm
uv run --with vllm vllm --help
编译部署 (MacOS、ARM等其他平台)
uv venv --python 3.12 --seed
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install -r requirements/cpu.txt
uv pip install -e .
运行 OpenAI API 服务器
vllm serve Qwen/Qwen3-32B