EKS에 Enterprise RAG 및 AI-Q를 배포하려면 GPU 인스턴스(g5, p4 또는 p5 제품군)에 대한 액세스가 필요합니다. 이 블루프린트는 동적 GPU 프로비저닝을 위해 Karpenter 오토스케일링에 의존합니다.
이 블루프린트는 두 가지 배포 옵션을 제공합니다: Enterprise RAG Blueprint (NVIDIA Nemotron 및 NeMo Retriever 모델을 사용한 멀티모달 문서 처리) 또는 전체 AI-Q Research Assistant (웹 검색을 통한 자동화된 연구 보고서 추가). 둘 다 동적 GPU 오토스케일링과 함께 Amazon EKS에서 실행됩니다.
Amazon EKS의 NVIDIA Enterprise RAG 및 AI-Q Research Assistant
NVIDIA AI-Q Research Assistant란?
NVIDIA AI-Q Research Assistant는 어디서나 작동할 수 있고, 자체 데이터 소스로 정보를 제공받으며, 몇 시간 분량의 연구를 몇 분 만에 종합할 수 있는 맞춤형 AI 연구원을 생성하는 AI 기반 연구 어시스턴트입니다. AI-Q NVIDIA Blueprint를 통해 개발자는 AI 에이전트를 엔터프라이즈 데이터에 연결하고 추론 및 도구를 사용하여 효율성과 정밀도로 심층적인 소스 자료를 추출할 수 있습니다.
주요 기능
고급 연구 자동화:
- 빠른 보고서 합성을 위한 5배 빠른 토큰 생성
- 더 나은 의미론적 정확도로 15배 빠른 데이터 수집
- 효율성과 정밀도로 다양한 데이터 세트 요약
- 자동으로 포괄적인 연구 보고서 생성
NVIDIA NeMo Agent Toolkit:
- 에이전트 워크플로우 개발 및 최적화 용이
- 다양한 프레임워크에 걸쳐 워크플로우 통합, 평가, 감사 및 디버그
- 최적화 기회 식별
- 각 작업에 가장 적합한 에이전트와 도구를 유연하게 선택하고 연결
NVIDIA NeMo Retriever를 통한 고급 의미론적 쿼리:
- 멀티모달 PDF 데이터 추출 및 검색 (텍스트, 표, 차트, 인포그래픽)
- 15배 빠른 엔터프라이즈 데이터 수집
- 3배 낮은 검색 지연 시간
- 다국어 및 교차 언어 지원
- 정확도 향상을 위한 리랭킹
- GPU 가속 인덱스 생성 및 검색
Llama Nemotron을 통한 빠른 추론:
- 최고의 정확도와 최저 지연 시간 추론 기능
- Llama-3.3-Nemotron-Super-49B-v1.5 추론 모델 사용
- 데이터 소스 분석 및 패턴 식별
- 포괄적인 연구를 기반으로 솔루션 제안
- 엔터프라이즈 데이터로 지원되는 컨텍스트 인식 생성
웹 검색 통합:
- Tavily API로 구동되는 실시간 웹 검색
- 현재 정보로 온프레미스 소스 보완
- 내부 문서를 넘어 연구 확장
AI-Q 구성 요소
공식 AI-Q 아키텍처에 따르면:
1. NVIDIA AI Workbench
- 에이전트 워크플로우를 위한 간소화된 개발 환경
- 로컬 테스트 및 사용자 정의
- 다양한 LLM의 손쉬운 구성
- NVIDIA NeMo Agent Toolkit 통합
2. NVIDIA RAG Blueprint
- 대규모 온프레미스 멀티모달 문서 세트 쿼리를 위한 솔루션
- 텍스트, 이미지, 표 및 차트 추출 지원
- GPU 가속을 통한 의미론적 검색 및 검색
- AI-Q의 연구 기능을 위한 기반
3. NVIDIA NeMo Retriever Microservices
- 멀티모달 문서 수집
- 그래픽 요소 감지
- 표 구조 추출
- 텍스트 인식을 위한 PaddleOCR
- 15배 빠른 데이터 수집
4. NVIDIA NIM Microservices
- LLM 및 비전 모델을 위한 최적화된 추론 컨테이너
- Llama-3.3-Nemotron-Super-49B-v1.5 추론 모델
- 보고서 생성을 위한 Llama-3.3-70B-Instruct 모델
- GPU 가속 추론
5. 웹 검색 (Tavily)
- 실시간 웹 검색으로 온프레미스 소스 보완
- 내부 문서를 넘어 연구 확장
- 웹 보강 연구 보고서 지원
NVIDIA Enterprise RAG Blueprint란?
NVIDIA Enterprise RAG Blueprint는 검색과 생성 모두를 위한 확장 가능하고 사용자 정의 가능한 파이프라인을 구축하기 위한 완전한 기반을 제공하는 프로덕션 준비 참조 워크플로우입니다. NVIDIA NeMo Retriever 모델과 NVIDIA Llama Nemotron 모델로 구동되는 이 블루프린트는 높은 정확도, 강력한 추론 및 엔터프라이즈 규모의 처리량에 최적화되어 있습니다.
멀티모달 데이터 수집, 고급 검색, 리랭킹 및 반영 기술에 대한 내장 지원과 LLM 기반 워크플로우와의 원활한 통합을 통해 수백만 개의 문서에서 텍스트, 표, 차트, 오디오 및 인포그래픽에 걸쳐 언어 모델을 엔터프라이즈 데이터에 연결하여 진정한 컨텍스트 인식 및 생성적 응답을 가능하게 합니다.
주요 기능
데이터 수집 및 처리:
- 텍스트, 표, 차트 및 인포그래픽이 포함된 멀티모달 PDF 데이터 추출
- 오디오 파일 수집 지원
- 사용자 정의 메타데이터 지원
- 문서 요약
- 엔터프라이즈 규모로 수백만 개의 문서 지원
벡터 데이터베이스 및 검색:
- 문서 세트에 걸친 다중 컬렉션 검색 가능
- 밀집 및 희소 검색을 통한 하이브리드 검색
- 정확도 향상을 위한 리랭킹
- GPU 가속 인덱스 생성 및 검색