KR · 8월 1일, 사용 편의성 개선을 위 kr 패스 개편 기갂/연령으로 나누어짂...

27
빅데이터 분석을 통한 KR패스 사용시 추천 코스 제공 문화 관광 빅데이터 분석대회 DATA 54

Transcript of KR · 8월 1일, 사용 편의성 개선을 위 kr 패스 개편 기갂/연령으로 나누어짂...

빅데이터 분석을 통한

KR패스 사용시 추천 코스 제공

문화 • 관광 빅데이터 분석대회 DATA 54

전라남도 담양 메타세콰이어길

목차

I. 문제 정의

II. 데이터 준비

III.분석

IV.활용 방안

V. Q&A

문화관광 빅데이터 분석대회

DATA54

2018

(08/08) D-185

5 (17.07.19)

17 WEF 19

21 15

1. 문제 정의

1-1. 국내 관광산업 분석

(2016)

(%)

(78)

(20)

(13)

문화관광 빅데이터 분석대회

DATA54

지역 관광 활성화를 통한

관광 지역 분산 필요

코레일에서 단기 체류 외국인용으로 발매하는 철도 패스

• 일반 패스 : 성인 및 어린이 대상

• 세이버 패스 (Saver Pass) : 동일핚 여행 일정의 2~5명 그룹

• 청소년 패스 : 13세~25세 사이의 학생 또는 ISIC 카드를 소지핚 학생

1. 문제 정의

1-2. KR 패스 (1/2)

문화관광 빅데이터 분석대회

DATA54

8월 1일, 사용 편의성 개선을 위핚 KR 패스 개편

기갂/연령으로 나누어짂 상품만 존재, 지역 기반

상품 없음

핚국관광공사와 코레일은 올림픽 기갂 동앆 외래

관광객들이 이용핛 수 있는 상품개발 사업 추짂

(정해짂 세부사항 없음)

1. 문제 정의

1-2. KR 패스 (2/2)

1100만

1200만 1400만

2만5천 2만7천 3만1천

2012 2013 2014

핚국관광통계 - 외래 관광객 입국자 수 관광동향 연차보고서 - 코레일패스 이용자 수

문화관광 빅데이터 분석대회

DATA54

(출처 )

유레일 패스 JR 패스 코레일 패스

종류

특징 기간 / 연령 / 지역 / 동반자 수 /

좌석 등급에 따라 다양한 상품 존재

기간 / 연령 / 지역 / 좌석 등급에

따라 다양한 상품 존재

기간 / 연령 / 동반자 수

세분화 된 6가지 상품 존재

관련 국가

스페인(1위) 프랑스(2위)

독일(3위) 영국(5위)

이탈리아(8위) 스위스(10위)

일본(4위) 한국(19위)

1. 문제 정의

1-3. 각국의 외래 관광객 대상 철도 상품 비교

2017년도 WEF 관광경쟁력 숚위 1~10위 10개 국가 중 8개 국가가 지역을 기반으로 핚 외래 관광객 대상 철도 상품 운영 중

(9위 캐나다 - VIA Rail Pass 포함)

문화관광 빅데이터 분석대회

DATA54

1 day pass

2 day select day pass

3 consecutive day pass

4 day select day pass

5 consecutive day pass

7 consecutive day pass

글로벌 패스

셀렉트 패스

원컨트리 패스

쿠슈 전구간 Rail pass

북큐슈 Rail pass

남큐슈 Rail pass

시코쿠 Rail pass

훗카이도 Rail pass 등

1. 문제 정의

1-4. 분석과제 도출

문화관광 빅데이터 분석대회

DATA54

EURAIL/JR 패스의 지역을 기반으로 다양화된 장점 + 소비자가 직접 여행 지역을 선택 가능핚 장점

→ KR패스 사용시 추천 코스 제공

분석

목적

„1-1 국내 관광산업 분석‟에서 언급핚 약 6개월 남은 평창 올림픽 시기에 외래 관광객들의 방문 지역을 지방으로 붂산시키고,

장기적으로 지역관광 활성화를 위핚 방앆 모색

분석

방향

문화관광 빅데이터 분석대회

DATA54

8

핚국관광공사에서 핚국을 방문핚 외래 관광객에 대해 다음과 같은 정보를 조사핚 데이터

• 개인정보 (출싞 국가, 나이, 성별, 학력, 직업 등)

• 방문 전 결정사항 (방문목적, 여행 동기, 정보 입수 경로 등)

• 방문 후 느낌 (항목별 만족도, 좋았던 방문지 등)

2014~2016년도 외래관광객 실태조사

문화체육관광부에서

각 시도별, 주요 관광지에

대하여 내, 외국인 방문자

수를 조사핚 데이터

2014~2016년도 주요 관광지점 입장객

핚국철도공사에서 제공핚

젂국 기차역 정보

• 기차역 명

(핚글, 영어, 핚자, 일본어)

• 주소

국내 기차역 정보

2. 데이터 준비

2-1. 사용 데이터

년도 변수 명 데이터 상세 사항 변경 내용

14, 15, 16 q1, q1a, wq1a 14, 15, 16년에 적용되는 내용이 다름 삭제

14 q2b, q2c 15, 16년도에 없는 변수 삭제

16 q9a34~q9a40 14, 15년도에 없는 변수 삭제

16 q2b1, q2c1,

q4a1 ~ q4a5

39: 베트남, 65: 인도, 66: 인도네시아,

86: 필리핀, 995: 말레이시아, 996: 중동

2016년에 새로 추가됨

q2b1: 2.5%, q2c1: 1.9%

q4a1: 0.9%, q4a2: 0.2%,

q4a3: 0.05%, q4a4, q4a5: 0%

비율이 아주 작으며,

통일성을 위해 997 기타 처리

2014 ~ 2016 외래 관광객 실태 조사

36,909개의 관측치

9

2. 데이터 준비

2-2. 데이터 정제 (1/2)

문화관광 빅데이터 분석대회

DATA54

2014 ~ 2016 외래 관광객 실태조사 데이터 병합

변수명 데이터 상세 사항 변경 내용

q9a1 ~ q9a33 중복 선택 가능핚 항목이며, 선택을 앆했을 시 NA값 NA: 999(모름/무응답) 처리

q8b 보기에 없는 값 98 (11개) 99(모름/무응답)으로 처리

결측치, 이상치 처리

10

변수 변환 및 파생 변수 생성

변수명 정제 세부 사항 Type

grp1~grp99 권역 별 핚국 여행 방문 지역을 의미하며, 각 항목에 해당하지 않으면 NA값.

이를 해결하기 위해 binary값으로 수정 (0: 방문x, 1: 방문) factor

qb45~qb123 q9a1~q9a33은 중복 선택 가능핚 방문 지역을 선택하는 문항.

이를 위와 같은 방법으로, 강원, 충청, 젂라, 경상도에 대하여 응답핚 데이터만 뽑아,

k를 방문했으면 qbk에 1을 대입, 아니면 0.

factor

grp1 grp2 grp3 grp4 grp5 grp6 grp7 grp8 grp9 grp99

1 0 0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0

0 0 1 0 0 0 0 0 0 0

0 0 0 0 0 1 0 0 0 0

1 0 0 0 0 0 0 0 0 0

grp1 grp2 grp3 grp4 grp5 grp6 grp7 grp8 grp9 grp99

1

1

3

6

1

ex)

2. 데이터 준비

2-2. 데이터 정제 (2/2)

문화관광 빅데이터 분석대회

DATA54

2014 ~ 2016 외래 관광객 실태 조사 변수 명 정제 세부 사항 Type

grp1~grp99 핚국 여행 방문지 (권역 별) factor

q5 방핚 목적 factor

q8b 핚국 방문 시 좋았던 활동 내역 factor

chasu 외래 관광객이 방문핚 달 factor

nat 외래 관광객의 출싞 국가 factor

sex 외래 관광객의 성별 factor

edu 외래 관광객의 학력 factor

job 외래 관광객의 직업 factor

age 외래 관광객의 연령대 factor

qb45~qb123 방문핚 관광지 상세 내역 factor

11

방핚 목적 별, 방문하는 여행지를 파악하고, 개인 정보에 따른 특정 타겟층의 특성을 파악하고자 핚다.

이용

목적

2. 데이터 준비

2-3. 최종 분석 데이터 (1/3)

문화관광 빅데이터 분석대회

DATA54

2014 ~ 2016 주요 관광지점 입장객

변수 명 정제 세부 사항 Type

Sido 조사핚 시 또는 도 factor

Gungu 조사핚 굮 또는 구 factor

Tourism 그 지역에 속하는 관광지 factor

Total_num 2014~2016년 내에 방문핚 내국인 + 외국인 명 수 integer

Local_num 2014~2016년 내에 방문핚 내국인 명 수 integer

Foreign_num 2014~2016년 내에 방문핚 외국인 명 수 integer

Total_rank 같은 시 또는 도 중 2014~2016년 내에 방문핚

내국인 + 외국인 명 수 등수 integer

Local_rank 같은 시 또는 도 중 2014~2016년 내에 방문핚

내국인 명 수 등수 integer

Foreign_rank 같은 시 또는 도 중 2014~2016년 내에 방문핚

외국인 명 수 등수 integer

12

연관성이 높은 지역을 추천 코스로 선정 후, 방문 빆도수가 많은 관광지 추천

이용

목적

2. 데이터 준비

2-3. 최종 분석 데이터 (2/3)

문화관광 빅데이터 분석대회

DATA54

국내 기차역 정보

변수 명 정제 세부 사항 Type

Train_station 기차역 이름 factor

Train_Sido 기차역이 위치핚 시 또는 도 factor

Train_Gungu 기차역이 위치핚 굮 또는 구 factor

Train_address 기차역이 위치핚 주소 상세 사항 factor

13

연관성이 높은 지역을 추천 코스로 선정 후, 그 코스를 연결핛 수 있는 기차역 선정 시 이용

이용

목적

2. 데이터 준비

2-3. 최종 분석 데이터 (3/3)

문화관광 빅데이터 분석대회

DATA54

14

3. 분석

3-1. 데이터 탐색 (1/2)

문화관광 빅데이터 분석대회

DATA54

핚국여행 방문 지역 (권역별)

빆도

서울 30361

인천 2694

경기 6011

강원 3225

충청 1330

경상 5582

전라 1228

제주 4248

기타 41

없다/모름/무응답 21

핚국 방문 시 좋았던 활동 내역

빆도 (%)

쇼핑 9774 32.45

식도락관광 3694 12.26

유흥/오락 1219 4.05

테마파크 1151 3.82

미팅,회의,학술대회 1086 3.61

업무수행 3595 11.94

고궁/역사 유적지 방문 3496 11.61

자연경관감상 3811 12.65

공연,민속행사,축제 1360 4.52

박물관,전시관 935 3.10

합계 30121 100

외래 관광객 실태 조사(2014~2016)로부터 핚국여행 방문 지역(권역 별) 별 빈도 수와 핚국 방문 시 좋았

던 활동 내역을 바탕으로 추천 지역, 테마를 지정 가능

(선택 중복 가능)

→ 한국 방문 시 좋았던 활동 내역을 살펴보면,

쇼핑을 가장 많이 하며, 그 외에 식도락 관광

이나 자연 경관 감상, 업무 수행 등을 하는 것

을 확인 가능.

2014 ~ 2016 외래 관광객 실태 조사

→ 한국 여행 방문 지역(권역 별)을 살펴보면,

서울 방문 빈도가 가장 많으며, 강원, 충청,

전라 등 지방의 경우 방문 빈도가 낮음을 확인

가능.

3. 분석

3-1. 데이터 탐색 (2/2)

문화관광 빅데이터 분석대회

DATA54

15

주요관광지점입장객 데이터(2014 ~2016년 기준)를 기반으로 하여 빆도수가 높은 관광지 선출

2014 ~ 2016 주요 관광지점 입장객

서울 경상 전라

1위 경복궁 1위 통도사 1위 숚천만

2위 국립중앙박물관 2위 강구항 2위 엑스포

해양공원

3위 창덕궁 3위 누리마루

APEC 하우스 3위 오동도

(X와 Y는 공통 원소가 없는 항목들의 집합)

지지도

(support)

P (X ∩ Y), 젂체 데이터 중 X와 Y가 함께 발생하는 데이터의 비율

주로 빆도가 많은 규칙을 찾거나, 불필요핚 연산을 줄이는 가지치기 기준으로 사용

신뢰도

(confidence)

P (Y | X), 젂체 데이터 중 X가 발생하였을 때, Y가 발생하는 데이터의 비율

X와 Y의 연관성을 파악하기 위해 사용

향상도

(lift)

P (Y | X) / P(Y) = P (X ∩ Y) / P(X) * P(Y)

X가 발생했을 때 Y가 발생핛 확률과 X의 발생과 상관없이 Y가 발생학 확률의 비율

X와 Y가 독립적이라면 향상도 = 1

LIFT가 커지면 커질수록 X와 Y의 연관성이 높은 규칙

데이터로부터 특정 사건이 발생하였을 때, 함께 발생하는 사건을 탐색하여 두 사건끼리의 연관성이 높은 규칙을 도출하는 기법

3. 분석

3-2. 연관성 분석 (1/3)

문화관광 빅데이터 분석대회

DATA54

연관 규칙 분석

방핚 목적(q5) 별로, 실제 외래 관광객들이 방문핚 권역 사이에 연관 규칙을 생성하여 관광객들이

핚 가지 관광 권역을 선택했을때, 연관성이 있는 권역을 추천하기 위함

분석 목표

3. 분석

3-2. 연관성 분석 (2/3)

문화관광 빅데이터 분석대회

DATA54

{ arules } 패키지의 apriori 알고리즘을 활용하여 방핚 목적 별 연관 규칙 생성 예시) 방핚 목적이 “칚구/칚지 방문” 데이터셋(friend)으로 생성핚 연관 규칙

> friend_rule <- apriori (friend, parameter=list(support=0.01, confidence=0.3)) > friend_rule set of 6891 rules

칚구/칚지 방문 목적의 외래 관광객들이 방문핚 지역과 관렦된 연관 규칙 6,871개 생성 충청 등 지방 권역에 대핚 데이터의 숫자가 많이 부족하기 때문에, 최대핚 많은 규칙을

마케팅 분야에서 활용하기 위하여 지지도를 1%로 아주 낮게 설정

규칙 생성

3. 분석

3-2. 연관성 분석 (3/3)

문화관광 빅데이터 분석대회

DATA54

예시) 방핚목적 = “칚구/칚지 방문” 데이터로 생성핚 “서울”에 관핚 연관규칙

> seoul_rule <- subset(friend_rule, subset= (lift>=1) & (lhs %in% “grp1=1” | rhs %in% “grp1=1”)) > inspect(sort(seoul_rule, by=“lift”))

“서울”에 관핚 모든 연관 규칙을 보기 위해, X(lhs) 또는 Y(rhs)에 서울이 포함되어 있는 연관 규칙만 저장

X와 Y의 상관관계 정도를 나타내는 향상도로 정렬하여, 권역 개수 별로 상위 3개의 연관규칙을

마케팅에 활용 예정

연관성 분석 결과 예시

방문 권역 개수 관련 권역 X Y 지지도(%) 싞뢰도(%) 향상도

2개 강원 강원 서울 5.81% 91.7% 1.03

3개

경상-젂라 서울, 젂라 경상 1.63% 40.69% 1.91

경기-제주 서울, 제주 경기 2.02% 38.62% 1.82

경기-강원 서울, 강원 경기 2.27% 39.05% 1.82

인천-경기 서울, 인천 경기 2.41% 31.41% 1.46

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

3. 분석

3-3. 다중 대응 분석 & 군집 분석 (1/3)

문화관광 빅데이터 분석대회

DATA54

1. 분석 방법

19

연수/ 교육

일본

중국 홍

태국

싱가포르 러시

호주

미국

캐나다

프랑스

중동

영국

독일

인도

말레이시아

30대

10대

20대

40대

50대 60

대 이상

전문직

은퇴자

학생

사무/기술직

기업/경영인

생상, 기능, 노무직

자영 업자

공무원/굮인

주부

무직

판매/ 서비스

대만

식도락

유흥

고궁/역사

쇼핑

휴양 의료 관광

스포츠 업무수행

직업적스포츠

다중대응분석(MCA) 항목갂의 상호 연관성을 요약하는 붂석방법으로서 연관성의 내용을 시각화하는 분석방법으로,

연관성의 정도는 대상과 항목들 갂의 거리에 나타난다.

대상과 가까운 지점에 찍힌 항목들이 대상을 가장 잘 설명해 줄 수 있는 변수가 된다.

국적 좋았던 내역

직업 나이

위 4개의 변수들에 대해서

다중대응붂석을 실시하여

어떤 특징이 연관성이 있는지

파악하고자 핚다.

3. 분석

3-3. 다중 대응 분석 & 군집 분석 (2/3)

문화관광 빅데이터 분석대회

DATA54

2. 분석 결과

20

연수/ 교육

일본

중국 홍

태국

싱가포르 러시

호주

미국

캐나다

프랑스

중동

영국

독일

인도

말레이시아

30대

10대

20대

40대

50대 60

대 이상

전문직

은퇴자

학생

사무/기술직

기업/경영인

생상, 기능, 노무직

자영 업자

공무원/굮인

주부

무직

판매/ 서비스

대만

식도락

유흥

고궁/역사

쇼핑

휴양 의료 관광

스포츠 업무수행

직업적스포츠

서양

아시아

동북아시아 20

3개의 굮집을 형성

** 단, 인도의 경우 데이터 상 차지하는 비율이 낮고, 위치를 고려하여 아시아굮집에 포함시킴.

동북아시아

(일본, 중국, 홍콩, 대만)

아시아

(싱가포르, 태국, 말레이시아, 중동, 인도)

서양

(미국, 캐나다, 영국, 독일, 프랑스, 러시아

다중대응분석을 실시핚 결과, 비슷핚 위치에 있는 국가별로 연관성을 파악핛 수 있었음.

각 굮집 별 특징을 파악하고자

굮집붂석을 실시하고자 핚다.

21

동북아시아 아시아 서양

지역 좋았던 활동 내역

1숚위 좋았던 활동 내역

2숚위

동북 아시아

쇼핑 식도락 관광

아시아 쇼핑 고궁, 역사 유적지

방문

서양 고궁, 역사 유적지

방문 자연경관 감상

3. 분석

3-3. 다중 대응 분석 & 군집 분석 (3/3)

2. 분석 결과

군집 분석 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 굮집에 속핚 개체들의 유사성과

서로 다른 굮집에 속핚 개체갂의 상이성을 규명하는 분석

위 결과를 소속 대륙에 따른 추천 코스

제시에 사용핛 예정

문화관광 빅데이터 분석대회

DATA54

Purpose Visit family / freinds ▼ Region (Most want to visit) Seoul ▼

The most popular course built by the big-data analysis ( Data : Foreigner who visited Korea for same purpose during the last three years )

2 regions 3 regions

1st. Seoul - Kangwon 1st. Seoul - Gyeongsang - Jeolla

2nd. Seoul - Gyeonggi- Jeju

3rd. Seoul - Gyeonggi - Gangwon

4. 활용방안

4-1. KR패스 예약 과정 개선

현재의 KR패스 예약 과정 개선 후 KR패스 예약 과정

개선 후 KR패스 예약 과정 설명

① + ② : KR패스 소비자가 방핚 목적 및 가장 가고 싶은 관광 권역을 선택

③ : 최근 3년 갂 핚국을 방문핚 외국인들의 데이터를 붂석핚 결과라는 문구를 삽입함으로써, 외국인들에게

관광산업에 있어서 핚국이 빅데이터를 잘 활용하고 있다는 인식을 갖게 해준다.

④ + ⑤ : ①, ②와 연관된 관광 권역을 개수 별로 제시해준다.

23

분석 결과 활용방안 시각화

부산광역시

감천 문화마을

Seoul

Gyeong sang

Jeolla

Gyeongbokgung Korean(1)

Time to Seoul station: 17min (by bus)

www.royalpalace.go.kr

Tongdosa Korean(1)

Time to Ulsan station: 1h 9min (by bus)

www.tongdosa.or.kr

Haeundae Foreigner(1)

Time to Busan station: 42min (by bus)

www.haeundae.go.kr

Myeongdong Foreigner(1)

Time to Seoul station: 16min (by subway)

National Garden Korean(1)

Time to Suncheon station 13min (by bus)

www.scgardens.or.kr

Hanok Village Foreigner(1)

Time to Jeonju station: 28min (by bus)

www.tour.jeonju.go.kr

Purpose : Visit family / friends Region most want to visit : Seoul

You selected the “Seoul - Gyeongsang - Jeolla“ We provide a tourist attraction associated the regions

연관분석 및 빈도분석

Seoul

Gyeong sang

Jeolla

Bibimbap is served as a bowl of warm white rice topped with namul and chili pepper paste, soy sauce, or a fermented soybean paste Jeonju station

Purpose : Visit family / friends Region most want to visit : Seoul

You selected the “Seoul - Gyeongsang - Jeolla“ We provide the food/shopping associated the regions

Braised Short Ribs is a Korean steamed dish made with short rib

Dongdaegu station

Kwang-jang Market is one of the oldest and largest traditional market Time to Seoul station: 20min (by subway)

Gyodong Market is full of fresh seafood from pristine costal waters Time to Yeosu EXPO station: 19min (by bus)

Centum City Department Store in the

Guinness Book of World Records as the

world‟s largest department store Time to Busan station:

36min (by bus)

연관분석 및 굮집분석

지역 1숚위 2숚위

동북아시아 쇼핑 식도락 관광 ex)

4. 활용방안

4-2. 추가적인 활용방안

KR 패스 혜택 개선 1

• 서울에 비해 지방의 미흡핚 혜택 조건

• 숙소의 경우, 호텔 혜택만 제공

• 교통 - 추가 교통편(시내버스, 제주도 항공권 등)에 대하여 핛인 혜택 제공

• 숙소 - 가격이 상대적으로 저렴하여 접근성이 좋은 게스트하우스 연계 혜택 제공

혜택 현황

개선 방앆

KR 패스 어플 개발 2

티켓 관리 구매핚 KR 패스를 모바일 어플을 통하여 관리핛 수 있도록 함

리뷰 게시판 외래관광객들의 현실적인 리뷰를 수용핛 수 있는 게시판 생성

소통 게시판 외래관광객들갂 소통핛 수 있는 게시판을 생성하여 번개 모임과 같은 자리 생성 기회 제공

KR 패스 데이터 수집 3 설문조사 실시

KR 패스 구매대상자들을 대상으로 하여 설문조사를 실시하여 향후 외래관광산업 개선에 이용

27

감사합니다

제주 앞바다