Overview 개요
<aside>
💡
- Pipeline: 데이터 → 모델 → 결과 분석
위 cycle → 5 차례 이상 iteration, 문제 해결 체득
</aside>
Task: Document Type Classification
- Task type:
- Recognition vs Generation → Recognition
- Classification vs Regression → Classification
- Binary vs Multi-class → Multi-class
- Data type
- Unstructured vs structured → Unstructured
→ Image classification 분류 문제
Data 데이터
<aside>
💡
- meta.csv: 클래스 이름, 인덱스 매핑 정보
- target, class_name
</aside>
Train data
<aside>
💡
- 1)train.csv: 학습 이미지 이름 - target class 정보를 Mapping
-
- train/ 학습 이미지 폴더 (실제 이미지 데이터)
</aside>
Test data
- 총 3140 장 (train 보다 많음)
- 난이도 조절 위해 augmentation (현실 세계 노이즈 처럼)
<aside>
💡
- 1)sample_submission.csv: 예측값 채워넣을 더미 파일 (target 값을 예측으로 채워넣어야) ID (이미지 파일 이름.확장자), target (class label) 컬럼
- 2)test/: 테스트 이미지 폴더
</aside>
Evaluation Metric: Macro F1
- Macro F1 score
- 각 클래스 F1 score 개별 계산 후 평균