Overview
Project 문제 상황 이해
- Data
- Train dataset과 Test dataset 간의 차이
- 분포 차이
- Test 데이터는 현실적 상황을 반영해 noise, rotation 등 다양한 augmentation이 적용된 모습으로, Train과 다소 다른 분포.
- 데이터 양 및 Class imbalance
- Test dataset은 데이터 양도 더 많음
- Train 데이터 class imbalance
- 따라서 **Train과 Test의 도메인 차이(domain shift)**로 인해 모델 성능 하락이 우려됨.
- Metric
- Macro F1 Metric 으로 평가 → class imbalance 해소 중요
문제 정의 Domain Shift → Domain Adaptation
- 현 상황:
- Train과 Test의 분포가 상이(Noise, Rotation 등).
- Test 레이블은 없다.
- 이 상황에서 Source(Train)→Target(Test) 분포 차를 줄이려는 접근
- 전형적인 Domain Adaptation의 문제 정의
- Transfer Learning/Fine-tuning
- 주로 소스→타겟(Train) 간의 관계를 가정, 여기서 Target은 학습용 데이터이므로 레이블 존재 전제.
- 반면, Test는 라벨 없는 실제 응용 대상을 가정.
- 따라서 이 문제는 Domain Adaptation 개념이 더 정교하게 들어맞는다.
- 즉, 이미 Train을 가지고 모델을 만들었는데, Test 도메인에 적응(domain adaptation)하려는 상황
- Test 데이터에 pseudo-label 만들어 학습하는 전략도 불가능 (주최측에 의해 제한된 상황)
논리적 근거:
- 실전 환경(Test)에서 수집한 이미지들은 학습 시 사용한 Train 이미지들과 다른 분포(Noise, Rotation, Color Jitter 등)를 보일 수 있다. 이를 **“Domain Shift” 또는 “Covariate Shift”**라 한다.
- 이러한 도메인 차이로 인해 모델이 Train에서 학습한 특성을 Test에서도 잘 일반화하지 못하는 문제가 발생한다.
참고 문헌:
- Torralba, A., & Efros, A. A. (2011). Unbiased look at dataset bias. CVPR 2011.
- Quionero-Candela, J. et al. (2009). Dataset Shift in Machine Learning. The MIT Press.
전략: 우선순위
1. Class Imbalance 대응