AI on EKS 추론 차트
AI on EKS 추론 차트는 GPU와 AWS Neuron(Inferentia/Trainium) 하드웨어 모두에서 AI/ML 추론 워크로드를 배포하기 위한 간소화된 Helm 기반 접근 방식을 제공합니다. 이 차트는 여러 배포 구성을 지원하며 인기 있는 모델을 위한 미리 구성된 값이 포함되어 있습니다.
고급 사용법
자세한 구성 옵션, 고급 배포 시나리오 및 포괄적인 파라미터 문서는 전체 README를 참조하세요.
개요
추론 차트는 여러 배포 프레임워크를 지원합니다:
- VLLM - 빠른 시작이 가능한 단일 노드 추론
- Ray-VLLM - 자동 스케일링 기능이 있는 분산 추론
- Triton-VLLM - NVIDIA 추론 서버
- AIBrix - AIBrix 전용 구성이 포함된 VLLM
- LeaderWorkerSet-VLLM - 대규모 모델을 위한 멀티 노드 추론
- Diffusers - 이미지 생성을 위한 Hugging Face Diffusers
- S3 Model Copy - Hugging Face에서 S3 스토리지로 모델 다운로드
GPU와 AWS Neuron(Inferentia/Trainium) 가속기 모두 이러한 프레임워크에서 지원됩니다.
사전 요구 사항
추론 차트를 배포하기 전에 다음 사항을 확인하세요:
- GPU 또는 AWS Neuron 노드가 있는 Amazon EKS 클러스터(빠른 시작을 위한 추론 준비 클러스터)
- Helm 3.0+
- GPU 배포의 경우: NVIDIA 디바이스 플러그인 설치됨
- Neuron 배포의 경우: AWS Neuron 디바이스 플러그인 설치됨
- LeaderWorkerSet 배포의 경우: LeaderWorkerSet CRD 설치됨
- Hugging Face Hub 토큰(
hf-token이라는 Kubernetes 시크릿으로 저장됨) - Ray의 경우: KubeRay 인프라
- AIBrix의 경우: AIBrix 인프라
- S3 Model Copy의 경우: S3 쓰기 권한이 있는 서비스 계정
빠른 시작
1. Hugging Face 토큰 시크릿 생성
Hugging Face 토큰으로 Kubernetes 시크릿을 생성하세요:
kubectl create secret generic hf-token --from-literal=token=your_huggingface_token
2. 미리 구성된 모델 배포
사용 가능한 미리 구성된 모델 중 선택하여 배포하세요:
경고
이러한 배포에는 GPU/Neuron 리소스가 필요하며, 활성화되어 있어야 하고 CPU 전용 인스턴스보다 비용이 더 많이 듭니다.
# 차트 저장소 추가
helm repo add ai-on-eks https://awslabs.github.io/ai-on-eks-charts/
helm repo update
# GPU에서 vLLM으로 Qwen 3 1.7B 배포
helm install qwen3-inference ai-on-eks/inference-charts \
--values https://raw.githubusercontent.com/awslabs/ai-on-eks-charts/refs/heads/main/charts/inference-charts/values-qwen3-1.7b-vllm.yaml
# GPU에서 Ray-vLLM으로 DeepSeek R1 Distill 배포
helm install deepseek-inference ai-on-eks/inference-charts \
--values https://raw.githubusercontent.com/awslabs/ai-on-eks-charts/refs/heads/main/charts/inference-charts/values-deepseek-r1-distill-llama-8b-ray-vllm-gpu.yaml
지원 모델
추론 차트에는 다양한 카테고리의 인기 모델을 위한 미리 구성된 값 파일이 포함되어 있습니다:
언어 모델
- DeepSeek R1 Distill Llama 8B - 고급 추론 모델
- Llama 3.2 1B - 경량 언어 모델
- Llama 4 Scout 17B - 중간 크기 언어 모델
- Mistral Small 24B - 효율적인 대규모 언어 모델
- GPT OSS 20B - 오픈소스 GPT 변형
- Qwen3 1.7B - 컴팩트한 다국어 언어 모델
Diffusion 모델
- FLUX.1 Schnell - 빠른 텍스트-이미지 생성
- Stable Diffusion XL - 고품질 이미지 생성
- Stable Diffusion 3.5 - 향상된 기능이 있는 최신 SD 모델
- Kolors - 예술적 이미지 생성
- OmniGen - 멀티모달 생성
Neuron 최적화 모델
- Llama 2 13B - AWS Inferentia에 최적화됨
- Llama 3 70B - Inferentia에서의 대규모 모델
- Llama 3.1 8B - 효율적인 Inferentia 배포
각 모델에는 다양한 프레임워크(VLLM, Ray-VLLM, Triton-VLLM 등)를 위한 최적화된 구성이 포함되어 있습니다.