슬라이드 1 · 2021. 5. 10. · 1 신규유저의 유입비용 따라서신규유저의유보다...
Transcript of 슬라이드 1 · 2021. 5. 10. · 1 신규유저의 유입비용 따라서신규유저의유보다...
1
1
신규 유저의유입 비용
따라서 신규 유저의 유입보다기존 유저 이탈을 예측하고
방지하는 것이기업의 이익창출에 효과적.
전체 매출의 70%를 차지하는VIP 유저 이탈 방지
↓잔존가치가 높은 유저의
이탈을 방지하여기대이익을 극대화
기존 유저의유지 비용>
5배!!
2
1~64의 연속형 변수를 이탈유저와 잔존유저로 구분or
이탈자에 대해서 초기 중기 후기 이탈자로 나누고잔존유저로 구분
유저 아이디 기준으로 데이터 통일&
분리된 데이터셋 통합
3
유저 아이디별 그룹핑을 통한 데이터 기준 통일
오류 데이터(컬럼) 제거
하나의 데이터로 통합
Target Data Bining
원본데이터 그룹핑한
데이터
Activity Trade Combat Payment Pledge Label
Total Set
논문과 인터넷 등을 참고 하여 게임과 관련성 있는 변수를 추가 생성
mean_amount : Payment 데이터의 acc_id(유저)별 amount_spent(결재액)의평균
char_id_count : activity 데이터의 acc_id(유저)별 보유 캐릭터 수targer_acc_id : trade(거래) 데이터의 acc_id(유저)별 총 구매 횟수max_item : trade 데이터의 acc_id (유저)별 가장 많이 구매한 아이템
타입sum_amount : payment 데이터의 acc_id(유저)별 amount_spent (결재액)
의 총합Y/N : payment 기준 과금 비과금 유저 구분sum_playtime : activity 데이터의 acc_id(유저)별 playtime의 총 합sum_exp : activity 데이터의 acc_id(유저)별 각 경험치의 총합
(solo+party+quest)day of enter : activity 데이터의 acc_id(유저)별 28일중 접속일수total_enter : activity 데이터의 acc_id(유저)별 캐릭터 접속의 총 합
새로 생성한 변수가 Target값에 유의한지 확인하기 위해 StatsModels를통해 확인한 결과 p-value값이 0.05이하로 유의미 한 것으로 판단됨.
Total Set 오류 데이터를제거한
Total Set
Combat_playtime
Non_combat_playtime
Fishing +
오류 데이터(컬럼)
의미가희석된data
제거
+ Ex) level,Sever…
분류모델 사용여전히 이상치가 존재하는 데이터-> 이상치에 덜 민감한 모델선정 필요
트리 기반 분류모델
4
4-2
5
<Best Parameters>*n_estimators=200*max_depth=10
유저를 “이탈”과 “비이탈"로만 구분하면 어떨까??
6
결론.
이상치를 제거하지 않았을 때 보다 이상치 제거 후 모델링을 한 경우 종전보다 예측률이 상승.
모델 튜닝까지 한 결과 RF,GB,RGB 모델 모두 결과적으로 예측력이 72%까지 상승되는 것을 확인하였다.
기업의 입장에서 유저의 이탈과 비이탈을 예상하고 싶은 경우 2진분류를 사용하여 과대적합 없이예측력 77%의 성능을 보이고 있는 RF모델을 사용하면 될 것이다. 만약 초기,중기,후기 이탈자를예측하고 싶다면, 72.2%의 예측력을 보이고 있는 RF모델을 추천한다.
한계점 및 미래 계획
이탈 시점의 Bining 기준을 명확히 알아내기가 쉽지 않음.
리니지 게임에 대한 도메인지식이 부족하여 변수 간의 상관관계를 알아내기 쉽지 않았음.
게임 데이터의 특성상 오류 데이터가 많아서 분석을 하는데 어려움을 겪었음
한계점
현재는 이탈 비 이탈과 초기, 중기, 후기 이탈자만 예측을 했지만 궁극적으로는 잔존가치를 고려한 이탈예측 모형을 제시하는 것이 목표
시간의 변화에도 흔들림 없는 강건한 모델을 만드는 것이 목표
미래계획