프로젝트 배경
1) 배경
- 고객사들이 음성 합성 시 더 좋은 퀄리티의 음성을 듣고 싶어합니다
- 고객사들이 스트리밍에서 더 빠른 응답 시간을 원합니다
2) 개선 사항
- 음성 복제를 더욱 더 잘 할 수 있도록 Classifier-free guidance 기술을 적용하였습니다
- 특히 사용자가 스트리밍 모드에서 처음 음성을 듣는 속도를 기존 1초 이상 걸리던 걸 400ms까지 단축하여, 일레븐랩스와 같은 경쟁사와 비슷한 속도가 나오도록 개선하였습니다
- 고객사들이 음성 합성 시 더 좋은 퀄리티의 음성을 듣고 싶어합니다
- 고객사들이 스트리밍에서 더 빠른 응답 시간을 원합니다
2) 개선 사항
- 음성 복제를 더욱 더 잘 할 수 있도록 Classifier-free guidance 기술을 적용하였습니다
- 특히 사용자가 스트리밍 모드에서 처음 음성을 듣는 속도를 기존 1초 이상 걸리던 걸 400ms까지 단축하여, 일레븐랩스와 같은 경쟁사와 비슷한 속도가 나오도록 개선하였습니다
프로젝트 성과
스트리밍 응답 시간을 400ms까지 단축
서버의 동시성이 증가되며, 스트리밍 이용자들의 만족도가 크게 향상됨
핵심 기능

스트리밍 음성 복제
스트리밍으로 본인 또는 타인의 음성을 복제할 수 있는 서비스를 고도화하였습니다. 재생 버튼을 누르면 체감 상 거의 바로 음성을 들을 수 있습니다.
진행 단계
문제점 파악
2025.04.
해당 서비스의 문제점 및 개선 방안 수립하였습니다.
개발
2025.05.
개선 포인트들을 스텝 별로 개발하였고, 스테이징 배포와 테스트를 통해 서비스에 안정적으로 적용하였습니다.
프로젝트 상세
1) 포트폴리오 소개
사용자 음성을 복제해서 TTS(Text-to-Speech)로 음성을 합성할 수 있게하는 엔진 개발에 기여하였습니다.
2) 작업 범위
- 모델 퀄리티 개선
- 스트리밍 모델 서빙 고도화
사용자 음성을 복제해서 TTS(Text-to-Speech)로 음성을 합성할 수 있게하는 엔진 개발에 기여하였습니다.
2) 작업 범위
- 모델 퀄리티 개선
- 스트리밍 모델 서빙 고도화

음성 합성 페이지
