프로젝트 배경
해결하려는 문제
클라우드 서비스 기반 STT(음성 인식)는 비용·보안 문제로 쉽게 도입하기 어려움
내부망 환경(예: 기업 인트라넷, 보안망)에서 음성 데이터를 외부로 전송하지 못하는 한계
기존 Whisper 모델은 개발자가 직접 로컬에서 다루기 번거롭고, 스트리밍 지원이 부족하여 실시간 회의/강의 기록에 활용이 어려움
목표
내부망에서도 독립적으로 동작하는 오픈소스 기반 STT 서버 구축
Whisper(OpenSourceSTT) 모델을 활용한 실시간 스트리밍 변환(SSE) 제공
Python(FastAPI) + PHP Proxy 구조로 외부망-내부망 브리지 환경 지원
직관적 UI를 통해 개발자·실무자 누구나 쉽게 테스트 및 활용할 수 있는 웹 클라이언트 제공
연구자/개발자들이 상용 API 의존 없이, 저비용·안전하게 음성 데이터를 활용할 수 있는 인프라 마련
프로젝트 상세
1) 포트폴리오 소개
서비스 카테고리: AI · 음성인식 · 오픈소스 인프라
메인 타깃: 연구자, 개발자, 기업 내 실무자(회의/강의/콜센터 로그 기록), 오픈소스 기반 음성처리 환경을 필요로 하는 스타트업 및 개인 개발자
2) 작업 범위
개발 범위:
서버: Python(FastAPI) 기반 Whisper 호환 STT 서버 구축
프록시: PHP Proxy 연동 (내부망/외부망 브리지)
클라이언트: 웹 브라우저 기반 UI/UX 설계 및 구현 (Dropzone, Health Check Panel, Streaming Log)
지원 환경:
반응형 웹 클라이언트 (데스크톱/모바일 대응)
서버 환경 (GPU 서버, 내부망-외부망 Proxy 연동)
3) 주요 업무
실시간(STREAM) 및 일괄(NON-STREAM) 음성 변환 기능 제공
SSE(Server-Sent Events) 기반 세그먼트 로그 스트리밍
헬스체크(/health, /ready) 패널 구현 — Proxy/Upstream 상태 및 Latency 모니터링
Drag & Drop 파일 업로드 및 옵션(언어 선택, 번역, Beam size) 지원
누적 텍스트 결과 영역 + 세그먼트별 실시간 로그 UI
4) 주안점
Whisper/OpenSourceSTT 호환성을 유지하면서 실시간 스트리밍 환경 제공
내부망/외부망 이중화 환경을 위한 Python + PHP Proxy 구조 설계
다양한 사용자 환경 대응 (브라우저 단일 접근, 모바일·데스크톱 반응형)