Amazon EKS에서 GPU를 위한 동적 리소스 할당(Dynamic Resource Allocation)
TL;DR - EKS에서 DRA를 사용한 동적 GPU 스케줄링
DRA는 Kubernetes에서 차세대 GPU 스케줄링 접근 방식입니다. 동적 리소스 할당(Dynamic Resource Allocation, DRA)은 기존 디바이스 플러그인을 넘어서는 고급 GPU 관리 기능을 제공합니다. 핵심 내용은 다음과 같습니다:
기존 GPU 스케줄링 대비 DRA의 장점
- 세밀한 리소스 제어 - 전체 디바이스가 아닌 특정 GPU 메모리 양을 요청 가능
- 워크로드별 공유 전략 - 클러스터 전체가 아닌 Pod별로
mps,time-slicing,mig,exclusive선택 가능 - 토폴로지 인식 스케줄링 - 멀티 GPU 워크로드를 위한 NVLink, IMEX 및 GPU 인터커넥트 이해
- 고급 GPU 기능 - Amazon EC2 P6e-GB200 UltraServers의 IMEX, 멀티 노드 NVLink 및 차세대 GPU 기능에 필수
- 공존 친화적 - 전환 기간 동안 기존 디바이스 플러그인과 함께 실행 가능
Amazon EC2 P6e-GB200 UltraServer 요구 사항
주요 구현 세부 사항:
☸️
EKS 컨트롤 플레인
v1.33+
DRA 기능 게이트 활성화
🖥️
EKS 최적화 NVIDIA AMI
최신 AMI
드라이버 사전 설치
🔗
관리형 노드 그룹
완전한 DRA 지원
권장 접근 방식
🔧
자체 관리형 노드 그룹
DRA 지원
수동 구성 필요
🛠️
NVIDIA GPU Operator
v25.3.0+
DRA에 필수
⚡
NVIDIA DRA Driver
v25.3.0+
핵심 DRA 기능
🚧
Karpenter DRA 지원
개발 중
GitHub Issue #1231
🔬
DRA 상태
베타 (K8s v1.32+)
기술 프리뷰
- EKS v1.33 - EKS 최적화 구성에서 DRA 기능 게이트 활성화
- 상세한 DRA 구현 - Kubernetes DRA 문서 참조
- 노드 프로비저닝 호환성:
- 관리형 노드 그룹(Managed Node Groups) - 완전한 DRA 지원
- 자체 관리형 노드 그룹(Self-Managed Node Groups) - DRA 지원 (수동 구성 필요)
- Karpenter - DRA 지원 개발 중 (Issue #1231)
- 공존 - 기존 디바이스 플러그인과 DRA를 동시에 실행 가능