DEVOTEE 요약 vLLM은 대규모 언어 모델(LLM)을 고속으로 추론하고 높은 처리량과 낮은 지연 시간을 제공하기 위해 설계된 엔진입니다. GPU 메모리를 효율적으로 관리하는 PagedAttention 기술을 비롯하여, 스케줄링 최적화와 Speculative Decoding 등의 다양한 기능을 통해 LLM의 성능을 극대화하고 비용 효율성을 돕는 여러 옵션을 제공합니다. 최신 v1 엔진은 GPU 활용도를 높이고 기능 간 호환성을 개선하여 사용성이 향상되었으며, 앞으로도 지속적 성능 및 호환성 개선이 기대됩니다.

vLLM

vLLM은 대규모 언어 모델(Large Language Model, LLM)을 고속으로 추론하기 위한 효율적인 엔진으로, 특히 serving 환경에서 높은 처리량과 낮은 지연 시간을 목표로 한다.

핵심 기술은 PagedAttention이라는 메모리 관리 기법으로, GPU 메모리를 효율적으로 분할·재사용함으로써 여러 요청을 동시에 빠르게 처리할 수 있게 해준다.

이를 통해 기존 대비 더 많은 동시 사용자 요청을 처리할 수 있고, 비용 효율적인 인퍼런스를 가능하게 한다.

Hugging Face Transformers 와도 호환되며, OpenAI API 스타일의 서버도 쉽게 구성할 수 있어 실무 적용이 용이하다.

vLLM 은 여러 연구 결과와 기술들을 효과적으로 조합하여 탄생 하였다. LLM 서빙 분야의 발전에 크게 기여 했다고 평가받는 주요 기술은 다음과 같다.

PagedAttention (vLLM 의 창시자인 권우석님 의 논문)

Flash Attention

Continuous batching

vLLM 의 성능에 영향을 주는 옵션

vLLM의 설정 항목은 매우 다양한데, 테스트를 거쳐 성능에 영향을 주는 설정들을 골라보았다 (v0.7.0 기준).

최대 배치 토큰 크기 등 서비스 시나리오와 관련 있는 설정은 다루지 않았다.