#!/bin/bash

python -m vllm.entrypoints.openai.api_server \
    --model moonshotai/Kimi-Dev-72B \
    --tensor-parallel-size 4 \
    --max-num-seqs 8 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.9 \
    --host localhost \
    --served-model-name kimi-dev \
    --port 8080

SERVICE_URL="http://localhost:8080/v1/models"
TIMEOUT=300      # 最大等待秒数
INTERVAL=5       # 检测间隔秒数
ELAPSED=0

echo "[*] 等待 vLLM 服务启动，最长等待 ${TIMEOUT}s ..."

while true; do
    # 尝试请求模型列表接口，检查是否包含指定模型
    if curl -s "$SERVICE_URL" | grep -q "moonshotai"; then
        echo "✅ vLLM 服务已成功启动！"
        break
    fi

    if [ $ELAPSED -ge $TIMEOUT ]; then
        echo "❌ 等待超时，vLLM 服务未启动成功。"
        exit 1
    fi

    echo "⏳ 服务尚未就绪，等待 ${INTERVAL}s 后重试..."
    sleep $INTERVAL
    ELAPSED=$((ELAPSED + INTERVAL))
done

# 这里写部署成功后要执行的命令
echo "[*] 现在执行后续操作..."

# 例如启动前端服务、运行测试脚本等
# ./start_frontend.sh
python app.py