합성 데이터와 실제 데이터셋 테스트 중 선택
기본 권장 사항: 가능하면 실제 데이터 사용
실제 프로덕션 데이터는 다음과 같은 이유로 가장 정확한 성능 예측을 제공합니다:
- 입력 토큰 분포가 실제 사용자 동작 과 일치
- 쿼리 복잡성이 실제 사용 사례를 반영
- 성능 결과가 프로덕션 경험과 직접 상관
- 합성 데이터가 놓칠 수 있는 특정 프롬프트 패턴의 문제 식별
합성 데이터를 사용해야 하는 경우 (시나리오 1-4):
- 프로덕션 데이터가 존재하기 전 초기 배포 검증
- 다른 시스템 간의 표준화된 비교 (동일 조건)
- 극단적인 엣지 케이스 테스트 (매우 긴 프롬프트, 버스트 패턴)
- 현실성보다 일관성이 더 중요한 빠른 CI/CD 검증
- 실제 데이터를 공유할 수 없는 공개 벤치마킹
모범 사례: 지속적인 데이터셋 검증
프로덕션 워크로드는 시간이 지남에 따라 진화합니다. 벤치마크가 대표성을 유지하도록 하려면:
- 벤치마크 데이터셋을 위해 주기적으로 익명화된 프로덕션 프롬프트 캡처
- 테스트 데이터와 프로덕션 트래픽 간의 분포 드리프트 모니터링:
# 토큰 길이 분포 비교
# 프로덕션: median=450, p95=1200
# 테스트 데이터: median=512, p95=2048
# → 테스트 데이터가 TTFT를 과대평가할 수 있음
- 현재 프로덕션 패턴과 일치하도록 분기별로 테스트 데이터셋 새로 고침
- 시간에 따른 성능 변화를 추적하기 위해 데이터셋 버전 관리
이는 추론 성능 테스트에 적용된 전통적인 ML 지속적 평가 관행을 반영합니다.