본문으로 건너뛰기

합성 데이터와 실제 데이터셋 테스트 중 선택

기본 권장 사항: 가능하면 실제 데이터 사용

실제 프로덕션 데이터는 다음과 같은 이유로 가장 정확한 성능 예측을 제공합니다:

입력 토큰 분포가 실제 사용자 동작과 일치
쿼리 복잡성이 실제 사용 사례를 반영
성능 결과가 프로덕션 경험과 직접 상관
합성 데이터가 놓칠 수 있는 특정 프롬프트 패턴의 문제 식별

합성 데이터를 사용해야 하는 경우 (시나리오 1-4):

프로덕션 데이터가 존재하기 전 초기 배포 검증
다른 시스템 간의 표준화된 비교 (동일 조건)
극단적인 엣지 케이스 테스트 (매우 긴 프롬프트, 버스트 패턴)
현실성보다 일관성이 더 중요한 빠른 CI/CD 검증
실제 데이터를 공유할 수 없는 공개 벤치마킹

모범 사례: 지속적인 데이터셋 검증

프로덕션 워크로드는 시간이 지남에 따라 진화합니다. 벤치마크가 대표성을 유지하도록 하려면:

벤치마크 데이터셋을 위해 주기적으로 익명화된 프로덕션 프롬프트 캡처
테스트 데이터와 프로덕션 트래픽 간의 분포 드리프트 모니터링:

   # 토큰 길이 분포 비교
   # 프로덕션: median=450, p95=1200
   # 테스트 데이터: median=512, p95=2048
   # → 테스트 데이터가 TTFT를 과대평가할 수 있음

현재 프로덕션 패턴과 일치하도록 분기별로 테스트 데이터셋 새로 고침
시간에 따른 성능 변화를 추적하기 위해 데이터셋 버전 관리

이는 추론 성능 테스트에 적용된 전통적인 ML 지속적 평가 관행을 반영합니다.

기본 권장 사항: 가능하면 실제 데이터 사용
합성 데이터를 사용해야 하는 경우 (시나리오 1-4):
모범 사례: 지속적인 데이터셋 검증