Spaces:
Running
on
L40S
Running
on
L40S
File size: 1,135 Bytes
5ce5804 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
#!/bin/bash
python -m vllm.entrypoints.openai.api_server \
--model moonshotai/Kimi-Dev-72B \
--tensor-parallel-size 4 \
--max-num-seqs 8 \
--max-model-len 131072 \
--gpu-memory-utilization 0.9 \
--host localhost \
--served-model-name kimi-dev \
--port 8080
SERVICE_URL="http://localhost:8080/v1/models"
TIMEOUT=300 # 最大等待秒数
INTERVAL=5 # 检测间隔秒数
ELAPSED=0
echo "[*] 等待 vLLM 服务启动,最长等待 ${TIMEOUT}s ..."
while true; do
# 尝试请求模型列表接口,检查是否包含指定模型
if curl -s "$SERVICE_URL" | grep -q "moonshotai"; then
echo "✅ vLLM 服务已成功启动!"
break
fi
if [ $ELAPSED -ge $TIMEOUT ]; then
echo "❌ 等待超时,vLLM 服务未启动成功。"
exit 1
fi
echo "⏳ 服务尚未就绪,等待 ${INTERVAL}s 后重试..."
sleep $INTERVAL
ELAPSED=$((ELAPSED + INTERVAL))
done
# 这里写部署成功后要执行的命令
echo "[*] 现在执行后续操作..."
# 例如启动前端服务、运行测试脚本等
# ./start_frontend.sh
python app.py |