본문으로 건너뛰기

합성 데이터와 실제 데이터셋 테스트 중 선택

기본 권장 사항: 가능하면 실제 데이터 사용

실제 프로덕션 데이터는 다음과 같은 이유로 가장 정확한 성능 예측을 제공합니다:

  • 입력 토큰 분포가 실제 사용자 동작과 일치
  • 쿼리 복잡성이 실제 사용 사례를 반영
  • 성능 결과가 프로덕션 경험과 직접 상관
  • 합성 데이터가 놓칠 수 있는 특정 프롬프트 패턴의 문제 식별

합성 데이터를 사용해야 하는 경우 (시나리오 1-4):

  • 프로덕션 데이터가 존재하기 전 초기 배포 검증
  • 다른 시스템 간의 표준화된 비교 (동일 조건)
  • 극단적인 엣지 케이스 테스트 (매우 긴 프롬프트, 버스트 패턴)
  • 현실성보다 일관성이 더 중요한 빠른 CI/CD 검증
  • 실제 데이터를 공유할 수 없는 공개 벤치마킹

모범 사례: 지속적인 데이터셋 검증

프로덕션 워크로드는 시간이 지남에 따라 진화합니다. 벤치마크가 대표성을 유지하도록 하려면:

  1. 벤치마크 데이터셋을 위해 주기적으로 익명화된 프로덕션 프롬프트 캡처
  2. 테스트 데이터와 프로덕션 트래픽 간의 분포 드리프트 모니터링:
   # 토큰 길이 분포 비교
# 프로덕션: median=450, p95=1200
# 테스트 데이터: median=512, p95=2048
# → 테스트 데이터가 TTFT를 과대평가할 수 있음
  1. 현재 프로덕션 패턴과 일치하도록 분기별로 테스트 데이터셋 새로 고침
  2. 시간에 따른 성능 변화를 추적하기 위해 데이터셋 버전 관리

이는 추론 성능 테스트에 적용된 전통적인 ML 지속적 평가 관행을 반영합니다.