File size: 1,135 Bytes
5ce5804
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#!/bin/bash

python -m vllm.entrypoints.openai.api_server \
    --model moonshotai/Kimi-Dev-72B \
    --tensor-parallel-size 4 \
    --max-num-seqs 8 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.9 \
    --host localhost \
    --served-model-name kimi-dev \
    --port 8080

SERVICE_URL="http://localhost:8080/v1/models"
TIMEOUT=300      # 最大等待秒数
INTERVAL=5       # 检测间隔秒数
ELAPSED=0

echo "[*] 等待 vLLM 服务启动,最长等待 ${TIMEOUT}s ..."

while true; do
    # 尝试请求模型列表接口,检查是否包含指定模型
    if curl -s "$SERVICE_URL" | grep -q "moonshotai"; then
        echo "✅ vLLM 服务已成功启动!"
        break
    fi

    if [ $ELAPSED -ge $TIMEOUT ]; then
        echo "❌ 等待超时,vLLM 服务未启动成功。"
        exit 1
    fi

    echo "⏳ 服务尚未就绪,等待 ${INTERVAL}s 后重试..."
    sleep $INTERVAL
    ELAPSED=$((ELAPSED + INTERVAL))
done

# 这里写部署成功后要执行的命令
echo "[*] 现在执行后续操作..."

# 例如启动前端服务、运行测试脚本等
# ./start_frontend.sh
python app.py