본문으로 건너뛰기

EKS에서의 추론

Amazon EKS에서 대규모 언어 모델(LLM) 및 기타 AI 모델을 배포하고 실행하세요.

이 섹션의 내용

이 섹션에서는 EKS에서 추론 워크로드를 실행하기 위한 실용적인 배포 가이드와 Helm 차트를 제공합니다. 오픈소스 LLM, Diffusion 모델 또는 커스텀 AI 모델을 배포하든, 즉시 사용 가능한 구성과 단계별 지침을 찾을 수 있습니다.


추론 차트

최적의 성능을 위한 사전 구성된 값과 함께 EKS에서 인기 있는 AI 모델을 배포하기 위한 Helm 차트입니다.

제공 내용:

  • vLLM, Ray-vLLM, Triton, Diffusers를 위한 즉시 배포 가능한 Helm 차트
  • 인기 모델(Llama, DeepSeek, Mistral, Stable Diffusion 등)을 위한 사전 구성된 values 파일
  • GPU(NVIDIA) 및 Neuron(AWS Inferentia/Trainium) 배포 모두 지원
  • 헬스 체크, 오토스케일링, 모니터링이 포함된 구성

사용 사례:

  • 오픈소스 LLM의 빠른 배포
  • 조직 전체의 표준화된 배포 패턴
  • 커스텀 모델 배포를 위한 참조 구현

추론 차트 살펴보기 →


프레임워크별 배포 가이드

EKS에서 특정 프레임워크를 사용한 모델 배포에 대한 상세 가이드로, 하드웨어 유형별로 구성되어 있습니다.

GPU 배포

NVIDIA GPU에서 모델을 배포하기 위한 단계별 가이드:

Neuron 배포

AWS Inferentia 및 Trainium에서 모델을 배포하기 위한 단계별 가이드:


시작하기

  1. 인프라 설정 - AI/ML 워크로드에 최적화된 EKS 클러스터를 프로비저닝하기 위해 추론 준비 클러스터로 시작하세요

  2. 배포 방법 선택:

    • 인기 모델의 빠른 배포 → 추론 차트 사용
    • 특정 프레임워크 또는 커스텀 구성 → 위의 프레임워크별 가이드 참조
  3. 배포 최적화 - 가이던스 섹션의 모범 사례를 적용하여 성능을 개선하고 비용을 절감하세요


도움이 필요하신가요?