Spaces:
Running
on
L40S
Running
on
L40S
python -m vllm.entrypoints.openai.api_server \ | |
--model moonshotai/Kimi-Dev-72B \ | |
--tensor-parallel-size 4 \ | |
--max-num-seqs 8 \ | |
--max-model-len 131072 \ | |
--gpu-memory-utilization 0.9 \ | |
--host localhost \ | |
--served-model-name kimi-dev \ | |
--port 8080 | |
SERVICE_URL="http://localhost:8080/v1/models" | |
TIMEOUT=300 # 最大等待秒数 | |
INTERVAL=5 # 检测间隔秒数 | |
ELAPSED=0 | |
echo "[*] 等待 vLLM 服务启动,最长等待 ${TIMEOUT}s ..." | |
while true; do | |
# 尝试请求模型列表接口,检查是否包含指定模型 | |
if curl -s "$SERVICE_URL" | grep -q "moonshotai"; then | |
echo "✅ vLLM 服务已成功启动!" | |
break | |
fi | |
if [ $ELAPSED -ge $TIMEOUT ]; then | |
echo "❌ 等待超时,vLLM 服务未启动成功。" | |
exit 1 | |
fi | |
echo "⏳ 服务尚未就绪,等待 ${INTERVAL}s 后重试..." | |
sleep $INTERVAL | |
ELAPSED=$((ELAPSED + INTERVAL)) | |
done | |
# 这里写部署成功后要执行的命令 | |
echo "[*] 现在执行后续操作..." | |
# 例如启动前端服务、运行测试脚本等 | |
# ./start_frontend.sh | |
python app.py |