Haal meer uit IBM SPSS Statistics 11.11.14 Profileren met beslissingsbomen Analytics@Work
-
Upload
daniel-westzaan -
Category
Data & Analytics
-
view
159 -
download
0
description
Transcript of Haal meer uit IBM SPSS Statistics 11.11.14 Profileren met beslissingsbomen Analytics@Work
© Analytics@Work 2014 | Statistics
Segmenteren en profileren met beslissingsbomen
11 November 2014
Jan Schuurman
© Analytics@Work 2014 | Statistics
Introductie: Analytics@Work
• Analytics@Work is business partner voor IBM SPSS en verzorgt workshops
en consultancy in de hele product range van SPSS analyse technologie.
• Freelance inhuur Jan Schuurman:
– Gecertificeerd expert in het gebruik van de IBM SPSS Statistics & Modeler
(datamining, textmining)
– Analyse oplossingen in Retail, Marketing Intelligence en Fraude
• Projectbasis
– Analytics@Work is netwerkorganisatie van specialisten in Market & Customer
Intelligence
Trainingen en workshops op eigen data
Trainingen
• Introduction to IBM SPSS Modeler and Data Mining
• Predictive Modeling with IBM SPSS Modeler
• Clustering and Association Models with IBM SPSS Modeler
• Advanced Data Preparation Using IBM SPSS Modeler
• Introduction to IBM SPSS Text Analytics for IBM SPSS Modeler
• Introduction to IBM SPSS Statistics
• Introduction to Statistical Analysis Using IBM SPSS Statistics
• Advanced Statistical Analysis Using IBM SPSS Statistics
• Data Management and Manipulation with IBM SPSS Statistics
Workshops
• SPSS Advanced Statistics op eigen data
• Introductie in datamining op eigen data
• Advanced datamining op eigen data
• Segmentatie & market basket technieken op eigen data
• Introductie in textmining op eigen data
3
© Analytics@Work 2014 | Statistics
Agenda
• Segmentatie, gezien vanuit het perspectief van de organisatie
• Welke soorten segmentaties zijn er?
• Uitleg en demonstratie van operationele segmentaties met Decision Trees
• Andere segmentatie toepassingen
• Vragen
4
© Analytics@Work 2014 | Statistics
5
Segmentatie, bijvoorbeeld gezien vanuit het
marketing perspectief van een organisatie
• Het gaat om het optimaal afstemmen van middelen voor
groepen vergelijkbare klanten
• Segmentatie: Het opsplitsen van (potentiele) klanten in
een bepaalde markt in verschillende groepen (segmenten),
waarbinnen de klanten dezelfde of vergelijkbare eisen
hebben die ingewilligd worden door een onderscheidende
marketing mix.
• Bijvoorbeeld de marketing mix; de beschikbare middelen
van een organisatie om de match te verbeteren tussen de
voordelen die klanten zoeken en de voordelen die de
organisatie aanbiedt.
© Analytics@Work 2014 | Statistics
6
Segmenteren doe je dus …
1. Voor het kiezen van de doelgroep
2. Om een propositie te ontwikkelen die je onderscheidend
maakt van de concurrent
3. Om goed aangesloten te blijven met de propositie aan de
behoefte van de doelgroep
• Dit voorbeeld is gezien vanuit het marketing perspectief
• Bij fraude gaat het bijvoorbeeld over
– het kiezen van risico groepen
– Ontwikkelen van bestrijdingsconcepten
– goed aangesloten blijven op veranderend fraudegedrag
© Analytics@Work 2014 | Statistics
7
Welke soorten segmentaties zijn er?
• Er zijn grofweg twee soorten segmentaties:
• Strategische segmentaties zijn gericht op een fundamenteel andere behoefte.
Marktsegmentaties.
• Operationele segmentaties zijn gericht op een organisatie doel. Bijvoorbeeld omzet
verhoging, verhoging winstgevendheid etcetera. Vaak ook gericht op het verbeteren van de
efficiency. Klantsegmentaties.
– Hier wordt vaak predictive modelling toegepast om segmenten beter te kunnen targetten
– Bijvoorbeeld voor het beter benutten van de inkomende en uitgaande klantcontacten
© Analytics@Work 2014 | Statistics
Segmentatie technieken in de praktijk
• In beschrijvende segmentaties wordt vaak gebruik gemaakt van clustering technieken
– Er worden homogene groepen gevonden, waarbinnen mensen sterk op elkaar lijken en
sterk verschillen van mensen in andere groepen
– In de praktijk zijn deze groepen weinig onderscheidend op een of meerdere externe
doelvariabelen
• In voorspellende segmentaties wordt vaak gebruik gemaakt van decision tree technieken
– De doelvariabele is leidend om segmenten te vormen.
– De segmenten zijn specifieke aftakkingen of groepen van geneste aftakkingen
– Ook op deze manier worden homogene groepen gevonden, waarbinnen mensen sterk op
elkaar lijken en sterk verschillen van mensen in andere groepen. Echter ze verschillen
het meeste op de doelvariabele.
8
© Analytics@Work 2014 | Statistics
9
Activiteiten die volgen na het segmenteren
• Belangrijke voorwaarde om segmentatie toe te passen is het kunnen bereiken van de
segmenten
• Hiervoor is een gedetailleerd beeld nodig van
– wie is de klant?
– hoe en waar kan ik ze vinden?
• Andere belangrijke voorwaarde is weten welke promotionele content je moet gebruiken.
• Daarvoor is begrip nodig over
– hoe de keuzes van klanten tot stand komen
– motivaties, psychografie en gedrag
HOE KUNT U UIT AL UW DATA INFORMATIE HALEN OM
UW KLANTEN ZO GOED MOGELIJK IN TE DELEN?
EN EEN ZO HELDER MOGELIJK PROFIEL TE GEVEN?
10
© Analytics@Work 2014 | Statistics
11
Welke variabelen van belang bij operationele segmentatie?
• Selectie variabelen
– Zakelijk-particulier, branche
• Organisatiedoel variabelen
– Satisfactie, defectie, rendement, efficiency, kredietrisico
• Predictie en profileringsvariabelen
– Gedragsvariabelen
– Leeftijd, inkomen, life cycle
– Dynamisch, statisch
• Stuurvariabelen
– Marketing en beleidsinstrumenten
• Controle variabelen
– Satisfactie, defectie, rendement, efficiency, et cetera
© Analytics@Work 2014 | Statistics
12
Operationele segmentaties
• De doelvariabele in de data set is ondersteunend aan de
organisatie doelstellingen Bijvoorbeeld
– Behalen van meer omzet
– Opsporen van fraude, et cetera
• Segmenten zijn onderscheidend op zowel het doel als de ‘drivers’
naar het doel
• Organisatie brede inzet
– Segment is voor elke klant berekend
– Segmentatie variabelen opgenomen in data en rapportage
systemen
– Geïntegreerd in werkprocessen
– Segmenten ingezet bij uitgaande en inkomende
klantcontacten
© Analytics@Work 2014 | Statistics
13
2 tips bij segmentatie
• Segmenteren is in wezen het maken van een model. Het verband tussen doel (vertoond
gedrag) en segmentatievariabelen moet voldoende sterk zijn
– Geslacht als indicator van het niet afbetalen werkt niet als het onderlinge verband erg
zwak is
• De keuze van de input variabelen:
– Die variabelen die samenhangen met de doelvariabele van het model
– Die variabelen die bruikbaar zijn voor de bewerking van de doelgroep
UITLEG EN DEMONSTRATIE VAN
DECISION TREES
SEGMENTEREN VAN CREDIT RISK BIJ EEN BANK
14
© Analytics@Work 2014 | Statistics
De casus
• Een bank heeft informatie over haar klanten
vastgelegd
• Met deze kenmerken wil zij regels achterhalen
over klanten met een hoge kans op het niet
afbetalen van een lening
• Deze regels wil de organisatie toepassen op
nieuwe klanten die een lening aangevraagd
hebben
• Kredietinformatie
– Debt to income ratio (x100)
– Credit card debt in thousands
– Other debt in thousands
– Previously defaulted = doelvariabele
• Klantinformatie
– Age in years
– Level of education
– Years with current employer
– Years at current address
– Household income in thousands
© Analytics@Work 2014 | Statistics
Basisbegrippen
• Target variabele
• Predictor variabelen (splitvariabelen)
• Beslisboom = vertakkingen van de target
variabele m.b.v. predictorvariabelen
• Root = de totaal verdeling van de target
variabele, i.c. het gemiddelde
• Branche = een vertakking
• Level = het aantal lagen onder de root
• Nodes = opsplitsingen binnen een predictor
variabele
– Intermediate nodes
– Terminal nodes
• De resultaten worden getoond in een
beslisboom
• De regels worden weggeschreven naar een
scoringsbestand
© Analytics@Work 2014 | Statistics
1 2
3
4
Decision trees werkt als volgt
Bereken de totaal gemiddelde kans op niet afbetalen
Bepaal welk klantkenmerk het meeste differentieert in deze kans
Het meest differentiërende kenmerk wordt in klassen ingedeeld
Waarna gekeken wordt in combinatie met welke andere klantkenmerken
een nog hogere kans op niet afbetalen te vinden is
Elk eindblok is een aparte beslisregel.
1
2
3
4
5
5
© Analytics@Work 2014 | Statistics
3 algoritmen, waarom?
• Chaid en C&RT zijn al zeer lang in gebruik en performen
verschillend op een data set
• Quest is ontwikkeld in aanvulling op C&RT:
– predictors met veel categorieen tenderen in C&RT eerder
gekozen te worden
• De praktijk:
– Verken de verschillende technieken op een data set
– Vergelijk de inhoudelijke en technische performance
(classificatietabel, stabiliteit etcetera)
© Analytics@Work 2014 | Statistics
Perspectief binnen Decision Trees
Chaid met een categorische target
Chaid met een metrische target
© Analytics@Work 2014 | Statistics
Perspectief binnen Decision Trees
C&RT met een categorische target
C&RT met een metrische target
© Analytics@Work 2014 | Statistics
Perspectief binnen Decision Trees Quest met een
categorische target
DEMONSTRATIE IBM SPSS DECISION TREES
22
© Analytics@Work 2014 | Statistics
Andere technische toepassingen van
Decision trees
• Classificatie & segmentatie: cases toekennen aan een groep
• Voorspellen: regels maken en en deze inzetten om toekomstige events te voorspellen
• Data reductie & variabel screening: selecteren van een subset van predictor variabelen.
Deze kunnen indien gewenst in een formeel statistisch model opgenomen worden
• Indentificatie van interacties: het identificeren van relaties binnen specifieke subgroepen.
Ook deze kunnen indien gewenst in een formeel statistisch model opgenomen worden
• Indikken van categorische en metrische variabelen met een minimaal verlies aan
informatie in relatie tot de targetvariabele
© Analytics@Work 2014 | Statistics
Voorbeelden van andere segmentatie
toepassingen
• Vinden van groepen in een klantdatabase met een hoge
respons op een marketingactie
• Vinden van klantgroepen die boven gemiddeld opzeggen
• Vinden van groepen mensen die bovengemiddeld frauderen
(bijvoorbeeld bij verzekeringen, uitkeringen etcetera)
• Vinden van ouderen met een hoge kans op een bepaalde
ouderdomsverschijnsel (bijv. vallen)
• Vinden van de juiste profielen voor het aannemen van
personeel
• Vinden van klantsegmenten met een hoge versus lage
loyaliteit
• Etcetera