EKS에 Enterprise RAG 및 AI-Q를 배포하려면 GPU 인스턴스(g5, p4 또는 p5 제품군)에 대한 액세스가 필요합니다. 이 블루프린트는 동적 GPU 프로비저닝을 위해 Karpenter 오토스케일링에 의존합니다.
이 블루프린트는 두 가지 배포 옵션을 제공합니다: Enterprise RAG Blueprint (NVIDIA Nemotron 및 NeMo Retriever 모델을 사용한 멀티모달 문서 처리) 또는 전체 AI-Q Research Assistant (웹 검색을 통한 자동화된 연구 보고서 추가). 둘 다 동적 GPU 오토스케일링과 함께 Amazon EKS에서 실행됩니다.
Amazon EKS의 NVIDIA Enterprise RAG 및 AI-Q Research Assistant
NVIDIA AI-Q Research Assistant란?
NVIDIA AI-Q Research Assistant는 어디서나 작동할 수 있고, 자체 데이터 소스로 정보를 제공받으며, 몇 시간 분량의 연구를 몇 분 만에 종합할 수 있는 맞춤형 AI 연구원을 생성하는 AI 기반 연구 어시스턴트입니다. AI-Q NVIDIA Blueprint를 통해 개발자는 AI 에이전트를 엔터프라이즈 데이터에 연결하고 추론 및 도구를 사용하여 효율성과 정밀도로 심층적인 소스 자료를 추출할 수 있습니다.
주요 기능
고급 연구 자동화:
- 빠른 보고서 합성을 위한 5배 빠른 토큰 생성
- 더 나은 의미론적 정확도로 15배 빠른 데이터 수집
- 효율성과 정밀도로 다양한 데이터 세트 요약
- 자동으로 포괄적인 연구 보고서 생성
NVIDIA NeMo Agent Toolkit:
- 에이전트 워크플로우 개발 및 최적화 용이
- 다양한 프레임워크에 걸쳐 워크플로우 통합, 평가, 감사 및 디버그
- 최적화 기회 식별
- 각 작업에 가장 적합한 에이전트와 도구를 유연하게 선택하고 연결
NVIDIA NeMo Retriever를 통한 고급 의미론적 쿼리:
- 멀티모달 PDF 데이터 추출 및 검색 (텍스트, 표, 차트, 인포그래픽)
- 15배 빠른 엔터프라이즈 데이터 수집
- 3배 낮은 검색 지연 시간
- 다국어 및 교차 언어 지원
- 정확도 향상을 위한 리랭킹
- GPU 가속 인덱스 생성 및 검색
Llama Nemotron을 통한 빠른 추론:
- 최고의 정확도와 최저 지연 시간 추론 기능
- Llama-3.3-Nemotron-Super-49B-v1.5 추론 모델 사용
- 데이터 소스 분석 및 패턴 식별
- 포괄적인 연구를 기반으로 솔루션 제안
- 엔터프라이즈 데이터로 지원되는 컨텍스트 인식 생성
웹 검색 통합:
- Tavily API로 구동되는 실시간 웹 검색
- 현재 정보로 온프레미스 소스 보완
- 내부 문서를 넘어 연구 확장
AI-Q 구성 요소
공식 AI-Q 아키텍처에 따르면:
1. NVIDIA AI Workbench
- 에이전트 워크플로우를 위한 간소화된 개발 환경
- 로컬 테스트 및 사용자 정의
- 다양한 LLM의 손쉬운 구성
- NVIDIA NeMo Agent Toolkit 통합
2. NVIDIA RAG Blueprint
- 대규모 온프레미스 멀티모달 문서 세트 쿼리를 위한 솔루션
- 텍스트, 이미지, 표 및 차트 추출 지원
- GPU 가속을 통한 의미론적 검색 및 검색
- AI-Q의 연구 기능을 위한 기반
3. NVIDIA NeMo Retriever Microservices
- 멀티모달 문서 수집
- 그래픽 요소 감지
- 표 구조 추출
- 텍스트 인식을 위한 PaddleOCR
- 15배 빠른 데이터 수집
4. NVIDIA NIM Microservices
- LLM 및 비전 모델을 위한 최적화된 추론 컨테이너
- Llama-3.3-Nemotron-Super-49B-v1.5 추론 모델
- 보고서 생성을 위한 Llama-3.3-70B-Instruct 모델
- GPU 가속 추론
5. 웹 검색 (Tavily)
- 실시간 웹 검색으로 온프레미스 소스 보완
- 내부 문서를 넘어 연구 확장
- 웹 보강 연구 보고서 지원
NVIDIA Enterprise RAG Blueprint란?
NVIDIA Enterprise RAG Blueprint는 검색과 생성 모두를 위한 확장 가능하고 사용자 정의 가능한 파이프라인을 구축하기 위한 완전한 기반을 제공하는 프로덕션 준비 참조 워크플로우입니다. NVIDIA NeMo Retriever 모델과 NVIDIA Llama Nemotron 모델로 구동되는 이 블루프린트는 높은 정확도, 강력한 추론 및 엔터프라이즈 규모의 처리량에 최적화되어 있습니다.
멀티모달 데이터 수집, 고급 검색, 리랭킹 및 반영 기술에 대한 내장 지원과 LLM 기반 워크플로우와의 원활한 통합을 통해 수백만 개의 문서에서 텍스트, 표, 차트, 오디오 및 인포그래픽에 걸쳐 언어 모델을 엔터프라이즈 데이터에 연결하여 진정한 컨텍스트 인식 및 생성적 응답을 가능하게 합니다.
주요 기능
데이터 수집 및 처리:
- 텍스트, 표, 차트 및 인포그래픽이 포함된 멀티모달 PDF 데이터 추출
- 오디오 파일 수집 지원
- 사용자 정의 메타데이터 지원
- 문서 요약
- 엔터프라이즈 규모로 수백만 개의 문서 지원
벡터 데이터베이스 및 검색:
- 문서 세트에 걸친 다중 컬렉션 검색 가능
- 밀집 및 희소 검색을 통한 하이브리드 검색
- 정확도 향상을 위한 리랭킹
- GPU 가속 인덱스 생성 및 검색
- 플러그 가능 벡터 데이터베이스 아키텍처:
- ElasticSearch 지원
- Milvus 지원
- OpenSearch Serverless 지원 (이 배포에서 사용)
- 복잡한 쿼리를 위한 쿼리 분해
- 동적 메타데이터 필터 생성
멀티모달 및 고급 생성:
- 답변 생성에서 선택적 Vision Language Model (VLM) 지원
- VLM을 통한 옵트인 이미지 캡션
- 대화형 Q&A를 위한 다중 턴 대화
- 동시 사용자를 위한 다중 세션 지원
- 선택적 반영으로 정확도 향상
거버넌스 및 안전:
- 선택적 프로그래밍 가능 가드레일로 콘텐츠 안전 개선
- 엔터프라이즈급 보안 기능
- 데이터 프라이버시 및 규정 준수 제어
관측성 및 텔레메트리:
- 평가 스크립트 포함 (RAGAS 프레임워크)
- 분산 추적을 위한 OpenTelemetry 지원
- 추적 시각화를 위한 Zipkin 통합
- 메트릭 및 모니터링을 위한 Grafana 대시보드
- 성능 프로파일링 및 최적화 도구
개발자 기능:
- 테스트 및 데모용 사용자 인터페이스 포함
- DRA를 사용한 GPU 공유를 위한 NIM Operator 지원
- 네이티브 Python 라이브러리 지원
- 쉬운 통합을 위한 OpenAI 호환 API
- 분해 가능하고 사용자 정의 가능한 아키텍처
- 기능 확장을 위한 플러그인 시스템
Enterprise RAG 사용 사례
Enterprise RAG Blueprint는 독립적으로 또는 대규모 시스템의 구성 요소로 사용할 수 있습니다:
- 문서 저장소 전반의 엔터프라이즈 검색
- 조직 지식 베이스용 지식 어시스턴트
- 도메인별 애플리케이션용 생성형 코파일럿
- 특정 산업에 맞춤화된 수직 AI 워크플로우
- 에이전트 워크플로우의 기반 구성 요소 (AI-Q Research Assistant처럼)
- 컨텍스트 인식 응답을 통한 고객 지원 자동화
- 대규모 문서 분석 및 요약
엔터프라이즈 검색, 지식 어시스턴트, 생성형 코파일럿 또는 수직 AI 워크플로우를 구축하든, RAG용 NVIDIA AI Blueprint는 프로토타입에서 프로덕션으로 자신 있게 이동하는 데 필요한 모든 것을 제공합니다. 독립적으로 사용하거나, 다른 NVIDIA Blueprint와 결합하거나, 더 고급 추론 기반 애플리케이션을 지원하기 위해 에이전트 워크플로우에 통합할 수 있습니다.
개요
이 블루프린트는 **NVIDIA AI-Q Research Assistant**를 Amazon EKS에 구현하며, 포괄적인 연구 기능을 위해 NVIDIA RAG Blueprint와 AI-Q 구성 요소를 결합합니다.