EKS에서의 Neuron 추론

📄️ Inferentia2에서 vLLM을 사용한 Llama-3-8B

최적화된 추론 성능을 위해 Ray와 vLLM을 사용하여 AWS Inferentia2에서 Meta-Llama-3-8B-Instruct 모델 서빙.

📄️ Inferentia2의 Mistral-7B

EKS에 ML 모델을 배포하려면 GPU 또는 Neuron 인스턴스에 대한 액세스가 필요합니다. 배포가 작동하지 않는 경우 이러한 리소스에 대한 액세스가 누락되어 있기 때문인 경우가 많습니다. 또한 일부 배포 패턴은 Karpenter 오토스케일링 및 정적 노드 그룹에 의존합니다. 노드가 초기화되지 않으면 Karpenter 또는 노드 그룹의 로그를 확인하여 문제를 해결하십시오.

📄️ Inferentia2의 Llama-3-8B

AWS Inferentia 가속기에서 효율적인 추론을 위해 Llama-3 모델 서빙.

📄️ Inferentia2의 Llama-2

AWS Inferentia 가속기에서 효율적인 추론을 위해 Llama-2 모델 서빙.

📄️ Inferentia2의 Stable Diffusion

EKS에 ML 모델을 배포하려면 GPU 또는 Neuron 인스턴스에 대한 액세스가 필요합니다. 배포가 작동하지 않는 경우 이러한 리소스에 대한 액세스가 누락되어 있기 때문인 경우가 많습니다. 또한 일부 배포 패턴은 Karpenter 오토스케일링 및 정적 노드 그룹에 의존합니다. 노드가 초기화되지 않으면 Karpenter 또는 노드 그룹의 로그를 확인하여 문제를 해결하십시오.

📄️ Ray Serve 고가용성

EKS에 ML 모델을 배포하려면 GPU 또는 Neuron 인스턴스에 대한 액세스가 필요합니다. 배포가 작동하지 않는 경우 이러한 리소스에 대한 액세스가 누락되어 있기 때문인 경우가 많습니다. 또한 일부 배포 패턴은 Karpenter 오토스케일링 및 정적 노드 그룹에 의존합니다. 노드가 초기화되지 않으면 Karpenter 또는 노드 그룹의 로그를 확인하여 문제를 해결하십시오.

📄️ Trainium에서 vLLM을 사용한 Llama 4

EKS와 Karpenter를 활용하여 AWS Trainium 인스턴스에서 vLLM으로 Llama 4 모델을 배포합니다.