프로젝트 배경
1) 문제점
실존 인물을 기반으로 한 고품질 가상 영상 제작은 높은 비용과 전문 지식이 요구되며, 표정·포즈·음성의 자유로운 조작이 어렵다.
2) 프로젝트 목표
LoRA·TTS·ControlNet 등을 결합한 자동화 파이프라인을 구축하여, 특정 인물 스타일의 음성+영상 콘텐츠를 저비용으로 생성 가능하게 한다.
3) 주안점
인물의 표정·포즈·배경·음성을 정밀하게 제어
실제 인물에 유사한 외형·목소리 구현
반복 가능한 자동화 파이프라인 구축
실존 인물을 기반으로 한 고품질 가상 영상 제작은 높은 비용과 전문 지식이 요구되며, 표정·포즈·음성의 자유로운 조작이 어렵다.
2) 프로젝트 목표
LoRA·TTS·ControlNet 등을 결합한 자동화 파이프라인을 구축하여, 특정 인물 스타일의 음성+영상 콘텐츠를 저비용으로 생성 가능하게 한다.
3) 주안점
인물의 표정·포즈·배경·음성을 정밀하게 제어
실제 인물에 유사한 외형·목소리 구현
반복 가능한 자동화 파이프라인 구축
프로젝트 성과
가상 인물 제작 시간 70% 단축
기존 수작업 대비 가상 인물 영상 제작 시간이 평균 10시간 → 3시간 이내로 감소
음성·영상 합성 일관성 향상
TTS 립싱크 적용으로 영상 내 입모양 일치도 평균 85% 이상 달성
콘텐츠 다양성 확보
ControlNet 기반 포즈·표정 변화로 약 50가지 이상의 상황/감정 표현 가능한 템플릿 확보
자동화 파이프라인 구축
ComfyUI 기반 영상 생성 플로우 구축으로 반복 제작 효율 3배 향상
핵심 기능


Flux 기반 로라 제작으로 이제훈 가상인간 이미지 생성
Flux 기반 로라 제작과 Comfyui 기반 이제훈 가상인간 이미지 생성
가상 인물의 상황, 영상, 배경 모두 제어 가능.
가상 인물의 상황, 영상, 배경 모두 제어 가능.


Controlnet을 활용한 가상 지자체장 이미지 생성
Openpose 기반 가상 인간의 포즈 변경



diffusion 기반 가상 인간 표정 변경
기존 이미지 내 인물의 표정 변경 가능
진행 단계
데이터 수집 및 모델 설계
2024.02.
이미지 및 음성 학습용 데이터셋 정리 및 LoRA, TTS, ControlNet 설계
모델 학습 및 테스트
2024.03.
Flux 기반 LoRA 학습, Tortoise TTS 튜닝, ControlNet 영상 연동 테스트
통합 및 자동화 구현
2024.04.
ComfyUI 기반 자동 영상 생성 파이프라인 구축 및 립싱크 최적화
프로젝트 상세
1. 포트폴리오 소개
Stable Diffusion 및 TTS 모델을 기반으로 가상의 인물(이제훈 스타일)을 생성하고, 음성과 립싱크까지 결합한 영상 콘텐츠를 제작. 상황, 표정, 포즈, 배경 등을 자유롭게 조정할 수 있어 광고, 행사, 홍보용 영상 콘텐츠 자동화에 활용 가능.
2. 작업 범위
1) 가상 인물 이미지 및 영상 제작
- Flux 기반 LoRA로 특정 인물 스타일 생성
- ComfyUI 및 ControlNet(OpenPose)을 활용한 영상 합성 및 포즈·표정 제어
2) 음성 합성 및 립싱크 처리
- Tortoise TTS 모델 커스터마이징
- 음성과 얼굴 영상의 립 동기화 구현
3) 영상 자동화 파이프라인 구축
- 전체 영상 제작 과정을 자동화하여 반복 제작 및 템플릿 활용 가능하게 구성
3. 주요 업무
- Flux 기반 LoRA 학습을 통해 이제훈 스타일 가상 인물 이미지 제작
- Tortoise 모델로 음성 데이터 fine-tuning 및 TTS 시스템 구축
- ControlNet (OpenPose) 기반 포즈와 표정 변화 기능 구현으로 장면 연출 다양화
- 합성된 음성과 영상에 립싱크를 적용하여 자연스러운 영상 생성
- ComfyUI를 활용하여 영상 제작 자동화 파이프라인 구성
4. 주안점
- 정밀한 제어 가능성: 인물의 표정, 포즈, 배경을 모두 조정 가능
- 모듈화된 제작 파이프라인: ComfyUI를 통한 효율적 반복 제작 가능
- 실제 인물 스타일 재현: Flux 기반 LoRA로 특정 인물에 가까운 외형 구현
- TTS 품질 고도화: Tortoise 모델을 커스터마이징하여 감정이 담긴 자연스러운 음성 생성
- 응용 확장성: 가상 지자체장, 홍보 영상, 가상 쇼호스트 등 다양한 분야에 응용 가능
Stable Diffusion 및 TTS 모델을 기반으로 가상의 인물(이제훈 스타일)을 생성하고, 음성과 립싱크까지 결합한 영상 콘텐츠를 제작. 상황, 표정, 포즈, 배경 등을 자유롭게 조정할 수 있어 광고, 행사, 홍보용 영상 콘텐츠 자동화에 활용 가능.
2. 작업 범위
1) 가상 인물 이미지 및 영상 제작
- Flux 기반 LoRA로 특정 인물 스타일 생성
- ComfyUI 및 ControlNet(OpenPose)을 활용한 영상 합성 및 포즈·표정 제어
2) 음성 합성 및 립싱크 처리
- Tortoise TTS 모델 커스터마이징
- 음성과 얼굴 영상의 립 동기화 구현
3) 영상 자동화 파이프라인 구축
- 전체 영상 제작 과정을 자동화하여 반복 제작 및 템플릿 활용 가능하게 구성
3. 주요 업무
- Flux 기반 LoRA 학습을 통해 이제훈 스타일 가상 인물 이미지 제작
- Tortoise 모델로 음성 데이터 fine-tuning 및 TTS 시스템 구축
- ControlNet (OpenPose) 기반 포즈와 표정 변화 기능 구현으로 장면 연출 다양화
- 합성된 음성과 영상에 립싱크를 적용하여 자연스러운 영상 생성
- ComfyUI를 활용하여 영상 제작 자동화 파이프라인 구성
4. 주안점
- 정밀한 제어 가능성: 인물의 표정, 포즈, 배경을 모두 조정 가능
- 모듈화된 제작 파이프라인: ComfyUI를 통한 효율적 반복 제작 가능
- 실제 인물 스타일 재현: Flux 기반 LoRA로 특정 인물에 가까운 외형 구현
- TTS 품질 고도화: Tortoise 모델을 커스터마이징하여 감정이 담긴 자연스러운 음성 생성
- 응용 확장성: 가상 지자체장, 홍보 영상, 가상 쇼호스트 등 다양한 분야에 응용 가능

가상인간 제작 프로세스

comfyui 예시