Information Retrieval 경진대회: Team 4 anomaly
I. 프로젝트 개요
- 프로젝트 기간
- 2월 24일(월) 10:00 ~ 2월 27일(목) 19:00 (약 4일)
- 목표
- RAG(Retrieval-Augmented Generation) 시스템 구축 및 평가
- 과학 상식 질의에 대한 문서 검색 정확도와 답변 생성 성능 확인
- 데이터
- 색인 문서: 약 4,200개 (jsonl 포맷)
- 평가 메시지: 총 220개 (20개 멀티턴 포함, 20개는 일반 대화)
- 평가 방식: MAP(Mean Average Precision) 변형 버전
- 과학 상식이 필요한 질의: 문서 검색 결과가 정답 세트와 얼마나 일치하는지 측정
- 과학 상식이 불필요한 질의: 검색 결과가 없어야 점수 획득(“검색 불필요” 판정)
- 핵심
- 본 대회는 RAG pipeline 중 에서도, Retriever 부분에 초점
- Generation 은 평가 기준에 없음
- 과학 관련 여부 판단이 가장 중요
- 이후 관련 문서를 색인 문서에서 적절히 찾아 top k id 제출
→ 과학 관련 질의 여부를 어떻게 판단할 것인가?
과학 관련이라면, 색인 문서 중 관련 있는 문서를 어떻게 인출할 것인가?
II. 실험 개요 및 세부 실험 요소
2.1 실험 개요
- 목표
- 전체 RAG 파이프라인 최적화:
- 세부 단계별 성능 평가:
- Query 판단, 임베딩, 모델 선택, 재정렬(rerank) 등
- 주요 실험 요소
- 모델 종류: OpenAI, Upstage, llama (ollama, lm studio 활용)
- Prompt 설계 및 Function Calling
- Retrieval 방식: Sparse vs. Dense
- Rerank: Sparse 후 Dense 임베딩 재정렬
- 임베딩 기법: SBERT, BGE-M3
- 활용 장비 및 환경 :
- 개발 환경: Linux Docker 서버 (nvidia GPU3090), 로컬 Python 환경
- 개발 도구: VS Code, Cursor IDE, Jupyter Notebook
- 환경 관리: Anaconda
- 협업 도구: Git, GitHub
- 라이브러리: ElasticSearch (BM25, Dens retriever)
2.2 세부 실험 요소
- 과학 질의 판단 (Prompt)
- 방법:
- 필요 자료:
- 기존 질의 데이터, 키워드 목록, 문맥 분석 기법 및 예시
- Retrieval 방식: Sparse vs. Dense
- Sparse:
- 전통적 키워드(역색인) 기반
- 장점: 빠른 검색 속도
- 단점: 문맥 이해 한계
- Dense:
- 임베딩 기반 유사도(콘텍스트 파악)
- 장점: 문맥 반영, 정확도 향상
- 단점: 연산 비용 증가
- 비교 자료:
- 각 방식의 정확도, 속도, 사례별 성능 데이터
- Rerank 전략: Sparse 후 Dense
- 과정:
- Sparse로 후보군 추출 → Dense 임베딩(cosine 유사도 등)으로 재정렬
- 필요 자료:
- 후보군 리스트, 임베딩 모델 비교 자료, 재정렬 전후 성능 지표
- 모델 선택
- 비교 대상: OpenAI, Upstage 의 각 GPT-3.5 Turbo, solar-1-chat-mini 를 주로 비교
- 평가 기준:
- 필요 자료:
- 각 모델별 테스트 결과, 사용자 피드백, 성능 지표
- 임베딩 기법 (dense embedding 시)
- 대상: SBERT, BGE-M3
- 평가 기준:
- 비교 자료:
2.3 가설 및 예상 결과
- Prompt & Function Calling
- 고급 프롬프트(문맥 분석)가 단순 키워드 매칭보다 과학 질의 판별 정확도를 높일 것
- Retrieval (Sparse vs. Dense)
- Sparse는 빠르고 효율적이며, Dense는 문맥 파악에 강점 → 혼합 전략 시 시너지 효과 기대
- Rerank 효과
- 모델 & 임베딩 기법
2.4 단계별 진행 요약
- 모델 성능 비교
- Function call Prompt 적용
- Retrieval 전략 비교
- Prompt + Retriever 통합
III. 개인 역할 및 회고
3.1 개인 역할
3.2 개인 회고
- 학습목표를 달성하기 위해 무엇을 어떻게 했는가?
- 마주한 한계, 아쉬웠던 점?
- 한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점?
- 어떤 방식으로 모델을 개선?
- 시도 중 어떠한 실패를 경험했는가? 실패의 과정에서 어떠한 교훈을 얻었는가?
- 협업 과정에서 잘된 점과 아쉬웠던 점은 무엇인가?
- 이번 경진대회를 통해 얻은 깨달음과 앞으로의 계획
3.3. 최리
#패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab #국비지원 #패스트캠퍼스업스테이지에이아이랩 #패스트캠퍼스업스테이지부트캠프