소개
AI on EKS 기반 인프라는 infra/base 디렉토리에 있습니다. 이 디렉토리에는 실험, AI/ML 학습, LLM 추론, 모델 추적 등을 지원하는 환경을 구성할 수 있는 기본 인프라와 모든 모듈이 포함되어 있습니다.
디렉토리에는 원하는 모듈을 활성화하거나 비활 성화하는 데 사용되는 모든 매개변수가 포함된 variables.tf가 있습니다 (기본값은 false로 설정). 이를 통해 Karpenter와 GPU 및 AWS Neuron NodePool을 갖춘 기본 환경을 배포하여 가속기 사용 및 추가 커스터마이징이 가능합니다.
참조 구현인 jark-stack은 실험을 위한 JupyterHub, Ray Clusters를 사용한 학습 및 추론을 위한 KubeRay 오퍼레이터, 워크플로우 자동화를 위한 Argo Workflows, 스토리지 컨트롤러 및 볼륨을 활성화하여 빠른 AI/ML 개발을 지원하는 환경을 배포합니다.
다른 블루프린트는 동일한 기반 인프라를 사용하며 블루프린트의 필요에 따라 다른 컴포넌트를 선택적으로 활성화합니다.
개요
AI on EKS는 Amazon EKS에서 AI/ML 워크로드를 배포하기 위한 포괄적인 인프라 솔루션을 제공합니다. 학습, 추론 또는 범용 AI/ML 워크로드에 최적화된 사전 구성 솔루션 중 선택하세요.
학습 인프라
AI/ML 모델 학습 워크로드에 최적화된 인프라 솔루션:
- JARK Stack on EKS - JupyterHub, Ray, Kubeflow를 포함한 NVIDIA GPU 기반 AI 워크로드를 위한 완전한 스택
- JupyterHub on EKS - 데이 터 사이언스 및 ML을 위한 대화형 개발 환경
추론 인프라
AI/ML 모델 추론 워크로드에 최적화된 인프라 솔루션:
- 추론 준비 클러스터 - 추론 워크로드를 위해 사전 구성된 EKS 클러스터
- Nvidia NIM on EKS - Nvidia NIM 배포 샘플
- Nvidia Dynamo on EKS - Nvidia Dynamo 배포 샘플
기타
추가 인프라 솔루션 및 유틸리티:
- EMR Spark Rapids - Amazon EMR에서 GPU 가속 Apache Spark
- 문제 해결 - 일반적인 문제 및 솔루션
시작하기
- 사용 사례 선택: 워크로드 요구 사항에 따라 학습 또는 추론 선택
- 인프라 배포: 선택한 솔루션의 배포 가이드를 따라 진행
- 워크로드 배포: 블 루프린트를 사용하여 AI/ML 워크로드 배포
- 최적화: 가이던스 모범 사례 적용
아키텍처 패턴
모든 인프라 솔루션은 다음 핵심 원칙을 따릅니다:
- 모듈식 설계: 재사용 가능한 모듈로 솔루션 구성
- 모범 사례: 보안, 관측성, 확장성이 내장
- 클라우드 네이티브: Kubernetes와 AWS 서비스 활용
- 검증됨: 엔터프라이즈 워크로드에 대해 테스트 및 검증 완료
리소스
각 스택은 base 스택의 컴포넌트를 상속합니다. 이러한 컴포넌트에는 다음이 포함됩니다:
- 2개 가용 영역에 서브넷이 있는 VPC
- 최소 인프라를 실행하기 위한 2개 노드를 가진 1개 코어 노드그룹이 있는 EKS 클러스터
- CPU, GPU, AWS Neuron NodePool을 갖춘 Karpenter 오토스케일링
- GPU/Neuron 디바이스 드라이버
- GPU/Neuron 모니터링 에이전트