#!/bin/bash python -m vllm.entrypoints.openai.api_server \ --model moonshotai/Kimi-Dev-72B \ --tensor-parallel-size 4 \ --max-num-seqs 8 \ --max-model-len 131072 \ --gpu-memory-utilization 0.9 \ --host localhost \ --served-model-name kimi-dev \ --port 8080 SERVICE_URL="http://localhost:8080/v1/models" TIMEOUT=300 # 最大等待秒数 INTERVAL=5 # 检测间隔秒数 ELAPSED=0 echo "[*] 等待 vLLM 服务启动,最长等待 ${TIMEOUT}s ..." while true; do # 尝试请求模型列表接口,检查是否包含指定模型 if curl -s "$SERVICE_URL" | grep -q "moonshotai"; then echo "✅ vLLM 服务已成功启动!" break fi if [ $ELAPSED -ge $TIMEOUT ]; then echo "❌ 等待超时,vLLM 服务未启动成功。" exit 1 fi echo "⏳ 服务尚未就绪,等待 ${INTERVAL}s 后重试..." sleep $INTERVAL ELAPSED=$((ELAPSED + INTERVAL)) done # 这里写部署成功后要执行的命令 echo "[*] 现在执行后续操作..." # 例如启动前端服务、运行测试脚本等 # ./start_frontend.sh python app.py