본문으로 건너뛰기

테스트 시나리오

이 섹션은 LLM 추론 성능 벤치마킹을 위한 실용적인 테스트 시나리오를 제공합니다. 각 시나리오는 특정 테스트 목표와 사용 사례를 다룹니다.

사용 가능한 시나리오

합성 데이터와 실제 데이터셋 테스트 중 선택

벤치마킹에 합성 데이터와 실제 데이터를 언제 사용해야 하는지와 데이터셋 선택을 위한 모범 사례를 이해합니다.

시나리오 1: 베이스라인 성능

경쟁 없이 시스템의 최적 성능을 확립합니다. 대기열이나 리소스 경쟁 없이 최상의 성능을 이해하는 데 이상적입니다.

사용 시기:

  • 새 엔드포인트를 방금 배포했을 때
  • 인프라를 변경했을 때
  • 최적화를 위한 깨끗한 참조 지점이 필요할 때

시나리오 2: 포화 테스트

다단계 부하 테스트를 통해 성능이 저하되기 전 최대 지속 가능한 처리량을 결정합니다.

사용 시기:

  • 용량 계획 시
  • 오토스케일링 임계값 설정 시
  • 프로덕션 출시 전 검증 시

시나리오 3: 자동 포화 감지

수동 QPS 추측 없이 자동화된 용량 검색을 위해 sweep 모드를 사용합니다.

사용 시기:

  • 초기 배포 시
  • CI/CD 파이프라인
  • 빠른 용량 재검증 시

시나리오 4: 프로덕션 시뮬레이션

가변 요청 크기와 버스트(Poisson) 도착으로 실제 트래픽을 복제합니다.

사용 시기:

  • 출시 전 최종 검증 시
  • SLA 목표 설정 시
  • 현실적인 워크로드 처리 검증 시

시나리오 5: 실제 데이터셋 테스트

실제 사용자 프롬프트와 쿼리 패턴을 사용하여 프로덕션 준비 성능을 검증합니다.

사용 시기:

  • 특정 패턴에 맞게 모델이 미세 조정되었을 때
  • 모델 버전 비교 시
  • 실제 성능 보장이 필요할 때

사전 요구 사항

모든 시나리오는 배포를 위해 AI on EKS Benchmark Helm Chart를 사용합니다. 진행하기 전에:

  1. Helm 설치 (버전 3.x 이상)
  2. AI on EKS Helm 저장소 추가:
    helm repo add ai-on-eks https://awslabs.github.io/ai-on-eks-charts/
    helm repo update
  3. EKS 클러스터에 대한 kubectl 접근 구성
  4. 추론 서비스 배포 (예: 모델을 서빙하는 vLLM)

구현 참고 사항

아래 각 시나리오는 권장 방법으로 Helm 차트를 사용한 배포를 보여줍니다. 차트는 다음을 제공합니다:

  • 모든 테스트 시나리오에 걸친 일관된 구성
  • 특정 사용 사례를 위한 값 기반 사용자 정의
  • Pod 어피니티 및 리소스 관리가 포함된 프로덕션 준비 기본값
  • 중앙 집중식 구성으로 쉬운 유지 관리

교육 목적이나 사용자 정의 배포의 경우 각 시나리오에는 완전한 매니페스트 구조를 보여주는 원시 Kubernetes YAML이 포함된 접을 수 있는 섹션도 있습니다. 이 대안적 접근 방식은 시작 시 메인 컨테이너에 종속성을 설치하는 런타임 종속성 설치를 사용합니다.