프로젝트 배경
1. 문제점
• LLM 응답 품질은 Retrieval 방식, Prompt 구성, Generator 선택에 따라 매우 달라지지만, 이를 체계적으로 실험/비교할 수 있는 툴이 부재
• 다양한 모듈 조합을 실험하려면 수작업 설정 및 수기 비교가 필요해 시간과 리소스 낭비가 큼
• 테스트 결과를 대시보드로 시각화하거나 최종 결과를 실서비스에 연결할 수 없음
2. 목표
• 모듈형 RAG 파이프라인을 구성하고 다양한 조합을 자동으로 테스트할 수 있는 플랫폼 구축
• 평가 결과를 시각적으로 제공하고, 최적 조합을 챗봇 형태로 실배포할 수 있는 자동화 연계 시스템 구축
• AWS 클라우드 기반으로 확장성과 안정성 확보
3. 주안점
• Retrieval, Reranker, Prompt, Generator 등 구성 요소별 성능 지표 정의 및 평가 로직 설계
• 테스트 자동화 및 병렬 실행 환경 구축
• 최적 조합 자동 추천 알고리즘 포함
• 결과 시각화 대시보드 및 챗봇 배포 자동화 연동
• LLM 응답 품질은 Retrieval 방식, Prompt 구성, Generator 선택에 따라 매우 달라지지만, 이를 체계적으로 실험/비교할 수 있는 툴이 부재
• 다양한 모듈 조합을 실험하려면 수작업 설정 및 수기 비교가 필요해 시간과 리소스 낭비가 큼
• 테스트 결과를 대시보드로 시각화하거나 최종 결과를 실서비스에 연결할 수 없음
2. 목표
• 모듈형 RAG 파이프라인을 구성하고 다양한 조합을 자동으로 테스트할 수 있는 플랫폼 구축
• 평가 결과를 시각적으로 제공하고, 최적 조합을 챗봇 형태로 실배포할 수 있는 자동화 연계 시스템 구축
• AWS 클라우드 기반으로 확장성과 안정성 확보
3. 주안점
• Retrieval, Reranker, Prompt, Generator 등 구성 요소별 성능 지표 정의 및 평가 로직 설계
• 테스트 자동화 및 병렬 실행 환경 구축
• 최적 조합 자동 추천 알고리즘 포함
• 결과 시각화 대시보드 및 챗봇 배포 자동화 연동
프로젝트 성과
RAG 구성 실험 시간 단축
다양한 조합 실험이 자동화되어 기존 수작업 대비 소요 시간이 수일에서 수분으로 단축됨
AI 연구 생산성 향상
RAG 테스트 자동화로 연구 효율성 3배 이상 향상, 반복 실험 시 소요 리소스 최소화
실서비스 배포 속도 개선
챗봇 배포 자동화 기능 구현으로 RAG 실험 결과의 서비스 적용 기간이 약 50% 단축됨
협업 및 평가 프로세스 최적화
실시간 시각화된 대시보드를 통해 실험 결과를 즉시 공유하고 피드백을 신속하게 반영 가능
플랫폼화 및 내부 표준 정착
평가 구성과 이력 저장 기능을 통해 연구팀의 실험 관리 프로세스가 체계화되어 표준 플랫폼으로 정착됨
핵심 기능
모듈형 RAG 구성 및 실행
Retrieval, Reranker, Generator, Prompt 등 각 요소를 조합하여 다양한 RAG 파이프라인을 구성하고 실행 가능
자동화된 성능 테스트 엔진
구성별 성능 평가를 위한 자동 실행 환경을 구축하여 실험 반복의 효율성을 높임
성능 지표 기반 분석
Precision, Token Cost, Latency, Response Quality 등 다양한 메트릭을 자동 계산하여 비교 가능
실시간 대시보드 시각화
실험 결과를 실시간으로 비교 및 분석할 수 있는 웹 기반 대시보드를 제공
챗봇 인터페이스 자동 배포
최적 구성 결과를 바탕으로 API 형태의 챗봇으로 자동 배포하여 실제 서비스에 즉시 활용 가능
진행 단계
요구사항 분석 및 고객 인터뷰, 평가 지표 구조 설계
2024.01.
고객의 LLM 실험 및 배포 프로세스를 분석하고, 평가 목적과 기준을 정의함
Retrieval/Prompt/Generation 각 모듈별 성능 평가 항목을 수립하고 지표 체계를 설계함
Retrieval/Prompt/Generation 각 모듈별 성능 평가 항목을 수립하고 지표 체계를 설계함
모듈형 프레임워크 개발, 자동화 테스트 및 메트릭 엔진 구축
2024.03.
다양한 RAG 구성요소를 플러그인처럼 조립할 수 있는 실행 프레임워크를 개발함
테스트 자동 실행 및 지표 산출을 위한 엔진을 구현하고 병렬 실험 환경 구성
테스트 자동 실행 및 지표 산출을 위한 엔진을 구현하고 병렬 실험 환경 구성
대시보드 및 시각화 기능 구현
2024.05.
실험 결과를 시각화하고 비교할 수 있는 웹 대시보드 UI를 ReactJS 및 Grafana로 개발
배포 자동화 기능 연동, 최종 검수 및 운영 반영
2024.06.
최적화된 RAG 구성을 바탕으로 챗봇 API로 자동 배포하는 기능을 연동함
고객사 환경에 맞춰 시스템을 배포하고 실제 운영체계에 통합 완료
고객사 환경에 맞춰 시스템을 배포하고 실제 운영체계에 통합 완료
프로젝트 상세
해당 프로젝트는 고객사가 자체적으로 연구·운영하는 다양한 LLM 기반 응용 시스템에서 가장 적합한 RAG 파이프라인 구성을 평가하고 최적화할 수 있도록 돕는 내부 툴을 구축하는 것이 목표였습니다.
기존에는 다양한 RAG 조합(Retrieval strategy, Re-ranker, Generator 등)을 수작업으로 실험하며 비교 분석하고 있었기에, 저희는 평가 항목을 체계화하고 자동화할 수 있는 모듈형 RAG 평가 플랫폼을 설계했습니다.
사용자가 구성한 파이프라인을 테스트하면, 시스템이 자동으로 Retrieval Precision, Response Coherency, Token Cost, Latency 등의 항목을 측정하고, 결과를 시각화된 대시보드로 제공합니다.
또한 최적 평가 결과를 기반으로 한 챗봇 인터페이스 자동 배포 기능까지 포함하여, 연구뿐 아니라 실제 서비스 적용까지 고려한 설계로 높은 만족도를 이끌어냈습니다.
기존에는 다양한 RAG 조합(Retrieval strategy, Re-ranker, Generator 등)을 수작업으로 실험하며 비교 분석하고 있었기에, 저희는 평가 항목을 체계화하고 자동화할 수 있는 모듈형 RAG 평가 플랫폼을 설계했습니다.
사용자가 구성한 파이프라인을 테스트하면, 시스템이 자동으로 Retrieval Precision, Response Coherency, Token Cost, Latency 등의 항목을 측정하고, 결과를 시각화된 대시보드로 제공합니다.
또한 최적 평가 결과를 기반으로 한 챗봇 인터페이스 자동 배포 기능까지 포함하여, 연구뿐 아니라 실제 서비스 적용까지 고려한 설계로 높은 만족도를 이끌어냈습니다.

