프로젝트 배경
1) 문제점
- 커뮤니티·메신저·상담 플랫폼 등에서 대화가 곧 끊길지 지속될지를 예측하기 어려움
- 사용자의 이탈 조짐을 사전에 감지하지 못해 적절한 알림·개입 타이밍을 놓침
- 대화 지속 패턴은 도메인마다 달라 일반적인 규칙 기반 접근은 예측 정확도가 낮음
2) 프로젝트 목표
- 대화 흐름 데이터를 분석하여 ‘지속될 대화’와 ‘끊길 대화’를 사전에 분류하는 머신러닝 모델 개발
- 사용자 행동 패턴 기반으로 이탈 징후를 조기에 감지하여 알림·추천·개입 기능과 연계 가능하도록 설계
- 다양한 플랫폼 환경에서 쉽게 적용할 수 있도록 모듈화된 예측 API 제공
3) 주안점
- 실제 커뮤니티/상담/메신저 데이터 기반의 전처리 및 학습 구조 구성
- 도메인별 커스터마이징이 가능하도록 가벼운 모델 구조와 threshold 설정 제공
- 타임라인 기반 피처 설계: 마지막 메시지 시간, 응답간격, 메시지 길이, 감정분석 등 시계열 요소 활용
- 커뮤니티·메신저·상담 플랫폼 등에서 대화가 곧 끊길지 지속될지를 예측하기 어려움
- 사용자의 이탈 조짐을 사전에 감지하지 못해 적절한 알림·개입 타이밍을 놓침
- 대화 지속 패턴은 도메인마다 달라 일반적인 규칙 기반 접근은 예측 정확도가 낮음
2) 프로젝트 목표
- 대화 흐름 데이터를 분석하여 ‘지속될 대화’와 ‘끊길 대화’를 사전에 분류하는 머신러닝 모델 개발
- 사용자 행동 패턴 기반으로 이탈 징후를 조기에 감지하여 알림·추천·개입 기능과 연계 가능하도록 설계
- 다양한 플랫폼 환경에서 쉽게 적용할 수 있도록 모듈화된 예측 API 제공
3) 주안점
- 실제 커뮤니티/상담/메신저 데이터 기반의 전처리 및 학습 구조 구성
- 도메인별 커스터마이징이 가능하도록 가벼운 모델 구조와 threshold 설정 제공
- 타임라인 기반 피처 설계: 마지막 메시지 시간, 응답간격, 메시지 길이, 감정분석 등 시계열 요소 활용
프로젝트 성과
SCIE 국제저널 게재
Elsevier Telematics and Informatics 저널 2023년 등재, DOI: 10.1016/j.tele.2023.101965
핵심 기능
대화 지속성 예측 엔진
특정 시점까지의 스레드 흐름을 입력 받아, 해당 대화가 계속될 확률을 출력하는 모델
복합 피처 추출 모듈
언어 표현(BERT), 시간 흐름(TGAT), 구조 연결(GNN)을 자동 통합한 벡터화 처리
선택적 특성 집계 구조
최근 댓글 중 정보성이 높은 부분을 LSTM과 Attention으로 선별하여 예측 정확도 향상
실시간 적용 가능 API
커뮤니티, 마케팅, 상담 도구 등에 연동 가능한 RESTful API 형태로 추상화 완료
진행 단계
문제 정의 및 데이터 설계
2021.01.
Reddit 스레드 기반 데이터 수집 및 대화 단위 정의 설정
모델 아키텍처 설계
2021.06.
텍스트 임베딩, 그래프 신경망, 선택적 집계 모델 구조 설계
학습 및 성능 검증
2022.05.
RoBERTa, GAT, TGAT 등 모델 성능 비교 및 모듈 단위 실험 수행
논문 작성 및 게재
2023.04.
연구 결과 SCIE 등재 저널 논문 출판 완료
프로젝트 상세
[서비스 설명]
온라인 커뮤니티 Reddit의 대화 쓰레드(Thread)에서 대화가 발전(지속)할 지 예측하는 인공지능 모델입니다.
총 3개의 Layer (Text Embedding Layer / Graph Embedding Layer / Selective Aggregation Layer)로 이루어져 있으며 Graph Neural Network와 NLP 모델을 접목시켜 구성하였습니다.
온라인 커뮤니티 Reddit의 대화 쓰레드(Thread)에서 대화가 발전(지속)할 지 예측하는 인공지능 모델입니다.
총 3개의 Layer (Text Embedding Layer / Graph Embedding Layer / Selective Aggregation Layer)로 이루어져 있으며 Graph Neural Network와 NLP 모델을 접목시켜 구성하였습니다.
