vllm 서빙 관련

#4
by y2kmarsh - opened

고생 많으십니다.
model card 소개에는 vllm 을 지원한다고 되어있는데, 나와있는대로 vllm 서빙을 해보면
ValueError: Head size 160 is not supported by PagedAttention. Supported head sizes are: [32, 64, 80, 96, 112, 120, 128, 192, 256].
라고 나옵니다.
실제로 head size 가 160 인것으로 보이는데, vllm 을 사용하여 서빙하려면 별도의 작업이 필요한지 문의드립니다.

Trillion Labs org

안녕하세요, 저희 모델에 관심 가져주셔서 감사합니다.

혹시 사용 중이신 vllm 버전이 어떻게 되시나요?

저는 0.10.0 을 사용하고있습니다~

Trillion Labs org
edited 8 days ago

@y2kmarsh 님 안녕하세요.
내부적으로 테스트 해보았을 때는 아쉽게도 해당 문제가 재현되지 않았습니다. 혹시 구체적인 세팅을 어쭈어 봐도 될까요?
특히, AMD GPU를 활용하고 계시는 것으로 예상되는데, 이 부분 확인 해주시면 감사드리겠습니다.
또한, 아래 저희 테스트 세팅을 공유드립니다. vLLM 커맨드는 model card와 동일합니다.

  • Python: 3.11.13
  • Pytorch: 2.7.1
  • vLLM: 0.10.0
  • vLLM Attention Backend: FlashAttention
  • GPU: Nvidia H100

아, python version 에 의한 차이였던것같습니다
동일한 python version 으로 실행하니 서빙되었습니다
환경 공유 감사드립니다!

이슈 close 하도록 하겠습니다

70B 모델도 곧 vllm 지원된다고 되어있는데 응원합니다 ㅎㅎㅎㅎ

y2kmarsh changed discussion status to closed

Sign up or log in to comment