Spaces:

moonshotai
/

Kimi-Dev-72B

Running on L40S

Kimi-Dev-72B / start.sh

miaoyibo

5ce5804 8 days ago

1.14 kB

	#!/bin/bash

	python -m vllm.entrypoints.openai.api_server \
	--model moonshotai/Kimi-Dev-72B \
	--tensor-parallel-size 4 \
	--max-num-seqs 8 \
	--max-model-len 131072 \
	--gpu-memory-utilization 0.9 \
	--host localhost \
	--served-model-name kimi-dev \
	--port 8080

	SERVICE_URL="http://localhost:8080/v1/models"
	TIMEOUT=300 # 最大等待秒数
	INTERVAL=5 # 检测间隔秒数
	ELAPSED=0

	echo "[*] 等待 vLLM 服务启动，最长等待 ${TIMEOUT}s ..."

	while true; do
	# 尝试请求模型列表接口，检查是否包含指定模型
	if curl -s "$SERVICE_URL" \| grep -q "moonshotai"; then
	echo "✅ vLLM 服务已成功启动！"
	break
	fi

	if [ $ELAPSED -ge $TIMEOUT ]; then
	echo "❌ 等待超时，vLLM 服务未启动成功。"
	exit 1
	fi

	echo "⏳ 服务尚未就绪，等待 ${INTERVAL}s 后重试..."
	sleep $INTERVAL
	ELAPSED=$((ELAPSED + INTERVAL))
	done

	# 这里写部署成功后要执行的命令
	echo "[*] 现在执行后续操作..."

	# 例如启动前端服务、运行测试脚本等
	# ./start_frontend.sh
	python app.py