MLOps 프로젝트 | 데이터 전처리부터 모델 서빙 경험
개요
트위터 데이터를 실시간으로 분석하고 감성 분류 모델을 통해 긍정/부정 트윗을 분류하는 시스템을 구현
- 프로젝트 기간: 11월 25일(월) – 12월 6일(금)
- 발표 일자: 12월 6일(금)
- 기술 스택:
- 데이터 수집 및 관리: 트위터 API, 데이터 전처리 도구
- 모델 개발: NLP 모델 (예: Hugging Face, BERT, KC-BERT)
- 모델 서빙:
- 온라인 서빙: FastAPI
- 배치 서빙: Airflow
- 모델 관리 및 실험 추적: MLflow
- 프론트엔드: Streamlit
- 환경 설정
- 가상 환경
- 의존성 충돌을 방지하기 위해 가상 환경을 사용: Anaconda
- 실험 및 테스트 환경
- Linux, Windows 10, Mac OS
- 모델 관리 자동화: 학습 스크립트 실행 후 자동으로 모델 등록 및 관리
멤버 역할 Team ML 4: Walk into AI
- 박정준: NLP 모델 개발, 모델 관리 파이프라인 (MLflow)
- 김동완: 데이터 수집 및 관리
- 김묘정: 프론트엔드 개발 (Streamlit), 모델 개발
- 이다언: 모델 서빙 (FastAPI)
주 데이터셋 및 모델
NSMC (Naver Sentiment Movie Corpus) 데이터셋
- 데이터 출처: 네이버 영화 리뷰 데이터
- 설명:
- 총 데이터 수: 200,000개 (훈련용 150,000개, 테스트용 50,000개)
- 레이블: 긍정(1), 부정(0) 이진 분류
- 내용: 사용자 작성 영화 리뷰 텍스트와 해당 감성 레이블
- 특징:
- 구어체, 비속어, 오탈자 등 정제되지 않은 표현이 많음
- 리뷰는 한글과 공백으로만 구성되어 전처리 필요성이 적음
- 사용 목적:
- 한국어 감성 분석 모델 학습 및 평가
- 한국어 자연어 처리 연구 및 애플리케이션 개발