Ekonomi, kommunikation och IT - DiVA portal37518/FULLTEXT01.pdf · 2008-10-07 · lagen i...
Transcript of Ekonomi, kommunikation och IT - DiVA portal37518/FULLTEXT01.pdf · 2008-10-07 · lagen i...
Ekonomi, kommunikation och IT
Marcus Lundgren Oskar Strandberg
Sannolikheter i fotbollsmatcher
– Kan man skapa användbara odds med hjälp av
statistiska metoder?
Probabilities in football games
-Can you create functional odds with the use of statistical methods?
Nationalekonomi C-uppsats
Datum/Termin: HT 2008 Handledare: Joakim Persson
Karlstads universitet 651 88 Karlstad Tfn 054-700 10 00 Fax 054-700 14 60
[email protected] www.kau.se
Abstract Betting under ordered forms has been around for a long time, but the recent increase in
Internet betting and the large sums of money that are now involved makes it even more
important for betting companies to have correct odds.
The purpose of the essay is to calculate probabilities for outcomes of football games
using a statistical model and to see if you can find better odds than a betting company.
The data contains the 380 games from the 2004/2005 season and the variables form,
head-to-heads, league position, points, home/away, average attendance, promoted team,
distance and final league position from previous season.
After performing an ordered probit regression we only find the variable “form of the
away team” to be significant at the 5 % level. We suspect the presence of
multicollinearity and perform a VIF-test which confirms this. To fix this problem we
perform a second ordered probit regression where a number of variables are combined to
index variables. In the second regression we once again find only one significant
variable. This time it is the variable “difference between home and away teams’ final
league position”. A reason for the lack of significant variables could be the size of the
data. A new model with five variables is examined and it results in four significant
variables.
The calculated odds pick the correct result in 200, 203 and 198 out of 380 games
respectively, compared to 197 out of 380 for Unibet. Betting one krona on the lowest
calculated odds from the second model will result in a positive yield for season
2004/2005 when using Unibet’s odds.
II
Sammanfattning
Vadslagning under ordnade former har funnits under en längre tid, men de senaste årens
explosionsartade ökning av Internetspel och de stora summor som då omsätts har gjort
det allt viktigare för spelbolagen att sätta korrekta odds.
Syftet med uppsatsen är att med hjälp av en statistisk modell räkna ut sannolikheter för
utfall i fotbollsmatcher och att undersöka om man kan hitta bättre odds än ett spelbolag.
Datamaterialet innefattar de 380 matcherna som spelades säsongen 2004/2005 samt de
oberoende variablerna form, inbördes möten, tabellplacering, poängskörd,
hemmaplan/bortaplan, publiksnitt, uppflyttat lag, avstånd och slutplacering.
Efter utförd ordered probit regression erhåller vi endast en signifikant variabel vid en
signifikansnivå på 5 %, nämligen ”bortalagets form”. Vi misstänker att det kan
förekomma multikollinearitet och utför därför ett VIF-test som bekräftar detta. För att
råda bot på detta problem genomför vi en andra ordered probit regression där flera
variabler slås ihop till indexvariabler. I den andra regressionen får vi åter igen en enda
signifikant variabel, men i detta fall är det variabeln ”differensen mellan hemma- och
bortalagets slutplaceringar”. Ett skäl till att det inte blir fler signifikanta variabler
misstänks vara storleken på datamaterialet. En ny modell med fem variabler undersöks
och då blir fyra variabler signifikanta.
De beräknade oddsen väljer rätt utfall i 200, 203 respektive 198 av 380 matcher för de tre
modellerna mot Unibets 197 av 380 matcher. I modell 2 ger en spelad krona på utfallet
med lägst beräknat odds positiv avkastning under säsongen vid spel hos Unibet.
III
Innehållsförteckning 1. Inledning ....................................................................................................................- 1 -
1.1 Bakgrund...............................................................................................................- 1 - 1.2 Syfte ......................................................................................................................- 1 - 1.3 Avgränsningar.......................................................................................................- 2 - 1.4 Metod ....................................................................................................................- 2 - 1.5 Disposition ............................................................................................................- 2 -
2. Tidigare studier.........................................................................................................- 3 - 3. Teori ...........................................................................................................................- 4 -
3.1 Premier League .....................................................................................................- 4 - 3.2 Odds ......................................................................................................................- 4 - 3.3 Hur sätter spelbolagen sina odds?.........................................................................- 6 - 3.4 Statistisk modell....................................................................................................- 6 - 3.5 Multikollinearitet ..................................................................................................- 7 -
4. Egen undersökning ...................................................................................................- 8 - 4.1 Variabler ...............................................................................................................- 8 -
4.1.1 Form...............................................................................................................- 8 - 4.1.2 Uppflyttat lag .................................................................................................- 8 - 4.1.3 Tabellplacering ..............................................................................................- 9 - 4.1.4 Poängskörd.....................................................................................................- 9 - 4.1.5 Inbördes möten.............................................................................................- 10 - 4.1.6 Avstånd ........................................................................................................- 10 - 4.1.7 Slutplacering ................................................................................................- 10 - 4.1.8 Publiksnitt ....................................................................................................- 10 -
4.2 Kritik mot val av variabler..................................................................................- 11 - 5. Analys.......................................................................................................................- 14 - 6. Slutsats .....................................................................................................................- 20 - Källförteckning ...........................................................................................................- 22 - Bilagor
IV
1. Inledning
1.1 Bakgrund Vadslagning under ordnade former har funnits under en längre tid. Ända sedan 1930-talet
har det funnits ett spelmonopol i Sverige då AB Tipstjänst, senare Svenska spel, fick
statens tillstånd att starta sin verksamhet. De första åren gick allt överskott direkt till
idrotten men sedan staten tog över samtliga aktier i bolaget år 1943 så tillfaller
överskottet både folk- och idrottsrörelsernas lokala barn- och ungdomsverksamhet samt
statskassan. (www.svenskaspel.se)
I slutet av 1990-talet började Internetbaserade spelbolag att dyka upp. Huvudkontor i
länder med gynnsamma skatteförhållanden i samband med möjligheten att, med hjälp av
Internet, nå ut till spelare över hela världen ökar konkurrensen avsevärt. Med de senaste
årens explosionsartade ökning av Internetspel och de stora summor som då omsätts så
blir det allt viktigare för spelbolagen att sätta korrekta odds för att generera så stora
vinster som möjligt och undvika stora förluster.
Unibet grundades 1997 och är nu ett av de största internetbaserade spelbolagen på den
europeiska marknaden med över 2,5 miljoner användare i mer än 150 länder. År 2000
bildades Unibet Group Plc med huvudkontor på Malta och förutom vanliga idrottsspel
finns bl.a. casino, poker och bingo tillgängligt att spela på. Fyra år senare noterades
Unibet på stockholmsbörsen. (www.unibetgroupplc.com)
1.2 Syfte Syftet med uppsatsen är att med hjälp av en statistisk modell räkna ut sannolikheter för
utfall i fotbollsmatcher. Kan man skapa odds som förutspår fotbollsmatcher bättre än ett
spelbolag? Kan man med hjälp av dessa odds, vid spel hos ett spelbolag, generera positiv
avkastning?
- 1 -
1.3 Avgränsningar Uppsatsen kommer att behandla fotbollsmatcher inom den högsta engelska divisionen,
Premier League. Data kommer att innefatta de 380 matcherna som spelades säsongen
2004/2005. I den statistiska modellen används faktorerna form, inbördes möten,
tabellplacering, poängskörd, hemmaplan/bortaplan, publiksnitt, uppflyttat lag, avstånd
och slutplacering. Variabler som cupspel, hot av nedflyttning eller eventuellt
nedflyttningsklart lag behandlas inte då det skulle kräva allt för mycket jobb. De
uträknade sannolikheterna från den statistiska modellen kommer att jämföras med
spelbolaget Unibets odds.
1.4 Metod För att undersöka om man kan hitta bättre odds än spelbolaget Unibet har vi samlat in
data om poäng, tabellplacering, publiksiffror, reseavstånd och slutresultat. Detta var
väldigt omfattande och tog upp en stor del av arbetets tid. Datamaterialet har sedan
används för att skapa variabler som vi misstänker kan påverka utgången i
fotbollsmatcher.
Efter detta användes statistikprogrammet STATA för att kunna skatta variablernas
koefficienter i en ordered probit modell. För att undersöka eventuell multikollinearitet
mellan variablerna genomfördes ett VIF-test. Totalt undersöktes tre olika modeller på
vilka odds beräknades.
1.5 Disposition Kapitel 2 ger en sammanfattad information om tidigare studier på ämnet ”oddssättning
med hjälp av statistiska modeller”. Kapitel 3 går igenom teori om hur Premier League
fungerar, hur oddssättning fungerar samt den statistiska modell som används. I kapitel 4
går vi sedan igenom de variabler som används samt kritik mot dem. Kapitel 4 är
analyskapitlet och det behandlar hur vi genomfört modellberäkningar samt vilka resultat
de gav. Till sist drar vi våra slutsatser i kapitel 6.
- 2 -
2. Tidigare studier Artikeln Odds-setters as forecasters: The case of English football försöker förutspå
matchresultat och använder sig, precis som denna uppsats, av en ordered probit modell.
Författarnas datamaterial innefattar nästan 10 000 matcher från olika divisioner i
England. Modellens odds förbättrades ju mer data de tillade i upp till 15 säsonger. Större
datamaterial än så gav dock inte någon ökad effekt. Författarna visar först att
oddssättarnas subjektiva prognoser inte var lika bra som prognoser från statistiska
modeller, men spelbolagens odds förbättrades avsevärt under den femårsperiod som
författarna undersökte och till slut kan de visa att subjektiva prognoser överträffar de rent
statistiska.
- 3 -
3. Teori
3.1 Premier League Premier League består av 20 lag. Alla lag möts både på hemmaplan och på bortaplan
under en säsong, alltså spelar varje lag 38 matcher under säsongen. För seger tilldelas
vinnaren 3 poäng och för oavgjort får de båda lagen 1 poäng vardera. Förlust ger 0 poäng.
Lagen rankas efter poäng och vid säsongens slut vinner laget med flest poäng. Om fler än
ett lag har samma poäng används i första hand målskillnad och i andra hand gjorda mål
för att skilja lagen åt.
Vinnaren och tvåan direktkvalificeras för spel i Champions League medan trean och
fyran i tabellen får kvala. Plats fem, sex och sju i tabellen får spela i UEFA-cupen
beroende på resultat i de inhemska cuperna FA-cupen och Liga-cupen. De tre sämst
placerade lagen degraderas till divisionen under, Championship. De två bäst placerade
lagen i Championship flyttas upp till Premier League medan trean, fyran, femman och
sexan får kvala om den sista platsen. (www.premierleague.com)
Premier League är den rikaste ligan i världen. Efter säsongens slut delas prispengar ut där
en högre tabellplacering genererar en högre summa. De bättre lagen visas också oftare
live på tv vilket i sin tur leder till högre intäkter från tv-rättigheter (Maguire och Pearton,
2000)
3.2 Odds Ett odds är förhållandet mellan vinst och insats vid spel om pengar
(Nationalencyklopedin). I Sverige redovisas odds i decimalform. Oddset visar det totala
beloppet som spelaren erhåller per spelade krona. Till exempel skulle en spelad krona på
Liverpool i matchen mellan Sunderland och Liverpool från 8 augusti 2007 (se Tabell 3.1)
ge 1 krona och 57 öre där 57 öre är vinsten.
- 4 -
Tabell 3.1: Sunderland-Liverpool 2007-08-25
1 X 2
Odds 6,00 3,65 1,57
Sannolikhet: (1/Odds) 0,167 0,274 0,637
Summa 1,078
(www.unibet.se)
Odds är inverterade sannolikheter där summan av sannolikheterna är 100 procent
(Nationalencyklopedin). Eftersom spelbolag är vinstmaximerande företag så läggs en
riskpremie på oddsen. Detta redovisas i exemplet i tabell 3.1. Sannolikheterna summerar
här upp till 107,8 procent. Denna riskpremie påverkar spelaren negativt eftersom oddsen
blir lägre. Riskpremien varierar något från match till match.
Tabell 3.2: Sunderland-Liverpool 2007-08-25, justerade värden.
1 X 2
Odds*1.078 6,468 3,935 1,692
1/(Odds*1.078) 0,155 0,254 0,591
Summa 1,000
För att räkna ut spelbolagets riktiga sannolikheter divideras 1 med oddset gånger
riskpremien. Dessa sannolikheter summerar nu till 100 procent (se Tabell 3.2). Vid
användning av spelbolagets riktiga sannolikheter blir oddsen 7,8 procent högre vilket
i sin tur leder till högre utdelning till spelarna.
- 5 -
3.3 Hur sätter spelbolagen sina odds? Spelbolagen brukade tidigare analysera matcherna för att komma fram till sannolikheter
men nu för tiden kollar man på marknaden och lägger sig där man tycker man har råd.
Spelbolagen kollar idag framförallt på Betfair när de sätter sina odds eftersom de är klart
störst på marknaden och de fungerar som en oddsbörs där spelare köper och säljer odds
av och till varandra för egna priser. Oddssättningen fungerar alltså som en vanlig
ekonomisk marknad där oddsen sätts efter utbud och efterfrågan. Utöver detta har
oddssättaren ofta kännedom om ungefär var oddset ska hamna och justerar sedan dessa
något efter skador och dylikt.
(Anonym Content Manager på ett spelbolag)
3.4 Statistisk modellProbit-modellerna använder sig av en ”Normal Cumulative Distribution Function”. De
diskreta utfallen beror på ett icke observerbart index ii XI 21 ββ += som beror av en
eller flera förklarande variabler. I sin enklaste form, den binära probit-modellen, finns det
endast två utfall. Om index-värdet överstiger ett kritiskt värde *iI antar den beroende
variabeln värdet 1. Om index-värdet är mindre än det kritiska värdet antar den beroende
variabeln värdet 0. Det kritiska värdet är inte observerbart, men det antas vara
normalfördelat med samma väntevärde och varians som index-värdet.
Givet antagandet om normalfördelning kan sannolikheten att *iI är mindre eller lika med
iI beräknas från den standardiserade normalfördelningsfunktionen.
( ) ( ) ( ) ( ) ( )iiiiiii XXFXZPIIPXYPP 212121*1 ββφββββ +=+=+≤=≤=== , där
( XYP 1= ) är sannolikheten att en händelse inträffar givet ett värde på den förklarande
variabeln X, är den standardiserade normfördelningsvariabeln (iZ ( )2,0~ σNZ ) och F
är den standardiserade normalfördelningsfunktionen. Ii fås av F-1, dvs. värdet på Ii fås
från normalfördelningskurvan givet värdet på Pi. (Gujarati, 2002)
- 6 -
Ordered probit är en modell med diskreta utfall som är rankade med inbördes ordning,
t.ex. 0, 1, 2. En linjär modell skulle behandla skillnaden mellan 0 och 1 på samma sätt
som mellan 1 och 2 trots att de egentligen bara är en rankning. Vid fler än två möjliga
utfall används ett antal gränsvärden, iμ , för att avgöra vilket utfall det blir.
( ) ( )( ) ( ) ( )( ) ( )*
2
*1
*2
*1
11
5,0
0
YXYP
YYXYP
YXYP
−−==
−−−==
−==
μφ
μφμφ
μφ
(Greene, 2003)
3.5 Multikollinearitet När två eller fler av de förklarande variablerna är korrelerade med varandra uppstår vissa
problem med modellen. Detta fenomen kallas för multikollinearitet. (Gujarati, 2002)
Symtom som pekar på multikollinearitet kan vara:
• Att små förändringar i datamaterialet ger stora svängningar i de skattade
parametrarna.
• Att koefficienter har höga standardfel och låg signifikans även om de tillsammans
utgör en signifikant variabel och regressionens förklaringsgrad är hög.
• Att koefficienter har ”fel” tecken och osannolika värden.
Ett sätt att undersöka om en variabel har problem med multikollinearitet är att genomföra
ett så kallat VIF-test (Variance Inflation Factor).
21,1 RtoleransdärTolerans
VIF −==
(Greene, 2003)
Ofta används gränsvärden mellan fyra och tio (eller en toleransnivå mellan 0,25 och 0,10)
för att avgöra om VIF-testet visar på multikollinearitet. För att råda bot på detta problem
kan man t.ex. kombinera variabler till en indexvariabel. (O’Brien, 2007)
- 7 -
4. Egen undersökning
4.1 Variabler Datamaterial samlades in från diverse Internetsidor. Publiksnitt hämtades från
soccernet.espn.go.com, reseavstånd hämtades från www.mapcrow.info medan poäng,
tabellplacering, och slutresultat hämtades från www.statto.com.
4.1.1 Form
En variabel som många anser vara viktig för att avgöra om ett lag kommer att vinna är
lagets form. Om laget har en formtopp påverkar det lagets moral positivt medan en
formsvacka kan påverka laget negativt med dålig stämning samt press från media och
supportrar.
Variabeln form har beräknats som lagets poäng de senaste fem matcherna. T.ex. skulle ett
lag som har vunnit tre matcher, spelat oavgjort en match och förlorat en match ha ett
formvärde på 10. Formen vid spelomgång t beräknas som:
∑−
−=
=5
1
t
tiit pForm , där p är poängen från spelomgång i.
Vid beräkning av form för omgång ett till fem används matcher från slutet av föregående
säsong. För nyuppflyttade lag används matcher från divisionen under.
4.1.2 Uppflyttat lag
Lag som i föregående säsong spelade i en lägre division är ofta ett sämre lag och har ofta
mindre pengar än de lag som befunnit sig längre i Premier League. Det är ofta hänt att de
lag som flyttats upp snart åker ner igen och då går miste om de stora summor pengar som
lagen i Premier League drar in.
- 8 -
Variabeln uppflyttat lag fungerar som en dummyvariabel där ett lag som spelade i en
lägre säsong året innan tilldelas värde 1 och övriga lag tilldelas värde 0.
4.1.3 Tabellplacering
Tabellplaceringen som ett lag innehar beror på poängskörden och skillnaden mellan
gjorda och insläppta mål. Ett lågt värde innebär att laget har spelat bra under säsongen
och vice versa. Variabeln tabellplacering anger skillnaden i tabellplacering mellan de lag
som möts. T.ex. skulle en match mellan det lag som ligger sist och ledaren generera ett
värde på 19 medan en match mellan två lag som ligger intill varandra i tabellen skulle ge
ett värde på 1 eller -1. När värdet på variabeln tabellplacering är nära 0 kan man anta att
det kommer att bli en jämnare match än om värdet på variabeln är högt. Variabeln
tabellplacering vid omgång t beräknas som:
BHt TTeringTabellplac −= , där T är tabellplaceringen för hemmalag H respektive
bortalag B.
De enskilda variablerna ”tabellplacering för hemmalaget” och ”tabellplacering för
bortalaget” används också för sig.
4.1.4 Poängskörd
Om ett lag har en stor sammanlagd poängskörd tyder det på att de är ett starkt lag. Denna
variabel kan visa på skillnader som tabellplaceringen inte visar. Till exempel kan två lag
ligga nära varandra i tabellen men det kan ändå skilja mycket poängmässigt. Förutom de
enskilda lagens poängskördar används även poängskillnaden som vid omgång t beräknas
som:
Poängskillnad , där P är den sammanlagda poängen för hemmalag H
respektive bortalag B.
BHt PP −=
- 9 -
4.1.5 Inbördes möten
Variabeln ”inbördes möten” visar de mötande lagens poängskörd de senaste fem
gångerna de två lagen mötts i ligasammanhang. I vårt fall innebar detta matcher i både
högsta och näst högsta divisionen. Den här variabeln används frekvent inom media för att
förutspå matchers utfall. Variabeln kanske mest påverkar det egna laget psykiskt då
media målar upp motståndarlaget som en ”mardrömsmotståndare” om laget har spelat
dåligt mot det andra laget på senare tid. Variabeln ”inbördes möten” vid omgång t
beräknas som:
∑−
−=
=5
1
t
tiit pmötenInbördes , där p är poängen från inbördes möte i.
4.1.6 Avstånd
Avståndet har beräknats mellan de mötande lagens orter. Vid derbyn blir värdet på
avståndsvariabeln med andra ord noll. Långa resor inför en match kan påverka spelarna
både psykiskt och fysiskt. Variabeln visar hur mycket reseavståndet påverkar resultatet i
en match.
4.1.7 Slutplacering
Slutplaceringen, från föregående säsong, ger en indikation om hur bra lagen är. Lagen får
också en monetär premie som varierar med slutplaceringen. Till detta tillkommer mer
fördelaktiga sponsor- och tv-kontrakt vid en hög slutplacering.
4.1.8 Publiksnitt
Denna variabel ska undersöka den påverkan publiken har på matcherna. Det är vida känt
att en stor publik påverkar spelarna på ett eller annat sätt. Hemmalaget kan dra nytta av
sina fans när det går bra och de får uppskattning för sina prestationer. Vissa spelare kan
dock uppleva att ett stort tryck från läktarna påverkar negativt då de får ökad
- 10 -
prestationsångest. Bortalaget påverkas ofta negativt av att spela inför läktare med många
hemmasupportrar då dessa vill se hemmalaget vinna. Går det däremot dåligt för
hemmalaget så kan hemmasupportrarna komma att vända sig mot sina egna spelare vilket
kan leda till ökad press och prestationsångest.
En annan aspekt på publiksiffrorna är att en stor publik ger ökade intäkter till klubben.
Om en klubb har haft ett bra publiksnitt medför det att de har mer pengar att spendera på
spelarinköp till nästa säsong samt öka lönerna för att behålla de befintliga spelarna.
Variabeln publiksnitt bestäms som varje lags genomsnittliga publiksiffra på hemmaplan
från föregående säsong.
4.2 Kritik mot val av variabler Vid beräkning av lagens form används poängskörden från deras fem senast spelade
matcher. Detta skapar problem i de fem första omgångarna då det inte har spelats
tillräckligt med matcher för att beräkna variabeln. Vi har löst detta genom att använda
data från slutet av föregående säsong. Formen är en ”färskvara” och kan bli missvisande
då gamla matcher används. Det kan bli extra missvisande för de lag som flyttats upp från
lägre division, då dessa mötte sämre lag i sina matcher från föregående säsong. En annan
faktor som påverkar variabelns pålitlighet är att vi endast räknat med ligamatcher. Lagen
kan ha spelat cupmatcher mellan ligamatcherna.
Variabeln tabellplacering tar inte hänsyn till att vissa matcher blir uppskjutna.
Tabellplaceringen är uträknad i efterhand, då de uppskjutna matcherna har spelats. Detta
medför att den tabellplacering som anges i variabelvärdet kan ha sett annorlunda ut då
matchen spelades. Tabellplaceringen kommer vara en bättre indikator mot slutet av
säsongen då lagens tabellplacering har stabiliserats och bättre speglar lagens fulla
potential. Inför första omgången så har alla lagen noll poäng vilket leder till att variabeln
för samtliga matcher kommer att vara noll.
Variabeln poängskörd kommer även den att vara en bättre indikator mot slutet av
säsongen då lagens poängskillnader har hunnit förändras under en längre tid. Inför första
- 11 -
omgången har alla lagen noll poäng vilket leder till att också denna variabel kommer att
vara noll för samtliga matcher.
Variabeln publiksnitt skall ge en indikation om hur rikt laget är, men publikintäkter är
bara en del av klubbens intäkter och ger inte en klar bild av lagets finansiella situation.
Publiksnittet skall också visa hur stort lagets publikstöd är, men publiksiffrorna kan skilja
sig stort från match till match och ett snitt från föregående säsong kan vara missvisande
för enskilda matcher.
Variabeln poängskörd är högt korrelerad med variabeln tabellplacering. Skillnaden är att
ett lag kan ligga på positionen under ett annat lag i tabellen, men ändå ha mycket färre
poäng. På samma sätt som variabeln tabellplacering så har vi inte tagit hänsyn till
uppskjutna matcher vid bestämmandet av denna variabel.
Variabeln avstånd tar inte hänsyn till vilket färdmedel som laget använder sig av. En
längre resa med flyg kanske är lika jobbig som en kortare resa med buss. Om ett lag ska
genomföra en lång resa inför en match som spelas tidigt på dagen åker de kanske dagen
innan matchen och övernattar. I detta fall är spelarna utvilade inför matchen och
avståndsvariabeln spelar en mindre roll.
Variabeln inbördes möten beräknas som ett lags poängskörd från de fem senaste
matcherna som spelats mot motståndarlaget. I vissa fall kan lagen ha spelat i olika
divisioner under en längre period och för att hitta de fem senaste mötena kan det vara
nödvändigt att gå så långt tillbaka som till 50-talet. I likhet med formvariabeln har vi här
endast räknat med ligamatcher och ignorerat eventuella cupmatcher.
Variabeln ”slutplacering” är bland annat tänkt att ge en indikation om hur bra laget är.
Det kan ha skett stora förändringar i truppen sen föregående säsong vilket skulle försämra
variabelns förmåga att ”förutspå” den nuvarande truppens kvalitet. En annan tanke är att
variabeln skall ge information om klubbens intäkter. På samma sätt som variabeln
- 12 -
publiksnitt så är intäkterna från slutplaceringen bara en del av klubbens alla intäkter och
ger inte någon helhetsbild av klubbens finanser.
- 13 -
5. Analys Forrest, Goddard & Simmons (2005) använder sig av ordered probit när de ska estimera
sannolikheter för olika utfall i fotbollsmatcher. Då denna undersökning liknar deras
används samma modell. Den första ordered probit regressionen (Modell 1), med samtliga
variabler från datamaterialet, genomfördes (se Tabell 5.1).
Tabell 5.1: Beroende variabel matchutfall (1; 0,5; 0)
Modell 1 Modell 2 Modell 3 Form för hemmalag (Ph) -0.01 (0.02) - -0.01 (0.02) Form för bortalag (Pb) -0.06 (0.03)** - -0.06 (0.02)*** Uppflyttat hemmalag (Uh) 0.06 (0.22) 0.09 (0.19) - Uppflyttat bortalag (Ub) 0.03 (0.22) 0.06 (0.20) - Tabellplacering för hemmalag (Th) 0.01 (0.02) - - Tabellplacering för bortalag (Tb) -0.01 (0.02) - - Poängskörd för hemmalag (Pth) 0.01 (0.01) - 0.02 (0.01)*** Poängskörd för bortalag (Ptb) -0.01 (0.01) - -0.01 (0.01)** Inbördes möten (I) 0.01 (0.01) 0.01 (0.01) 0.03 (0.01)*** Avstånd (A) 0.00 (0.00) 0.00 (0.00) - Slutplacering för hemmalag (Sh) -0.02 (0.02) - - Slutplacering för bortalag (Sb) 0.02 (0.02) - - Publiksnitt för hemmalag (Puh) 0.00 (0.00) - - Publiksnitt för bortalag (Pub) 0.00 (0.00) - - Differens i form (P) - 0.02 (0.02) - Differens i tabellplacering (T) - 0.01 (0.02) - Differens i poängskörd (Pt) - 0.01 (0.01) - Differens i slutplacering (S) - -0.02 (0.01)** - Differens i publiksnitt (Pu) - 0.00 (0.00) - μ1 -1.22 (0.58) -0.74 (0.13) -1.07 (0.19) μ2 -0.37 (0.57) 0.12 (0.13) -0.23 (0.19) Pseudo R2 0.07 0.07 0.06 Observationer 380 380 380 Log likelihood 375.05 -377.50 -378.93 Kommentar: ***indikerar signifikans på 1 % signifikansnivå.
** indikerar signifikans på 5 % signifikansnivå.
Vid en signifikansnivå på 5 % fås endast en signifikant variabel, nämligen ”bortalagets
form”. Koefficienten fick ett negativt värde vilket verkar logiskt eftersom ett negativt
värde på koefficienten för variabeln ”bortalagets form” innebär att ett bortalag som tagit
många poäng de senaste matcherna bör ha en större chans att få med sig poäng från
bortamatchen. Med hjälp av en ordered probit modell togs sannolikheter för hemmavinst,
oavgjort och bortavinst fram.
- 14 -
PubPuhSbShA
IPtbPthTbThUbUhPbPh
PubPuhSbShA
IPtbPthTbThUbUhPbPh
XXXXXXXXXXXXXXY
XPubXPuhXSbXShXAXIXPtbXPthXTbXThXUbXUhXPbXPh
0.00-0.000.020.02-0.00-0.010.01-0.010.01-0.010.030.060.06--0.01
Y
+++++++=
⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅=
(se Modell 1, Tabell 5.1)
Ex. Liverpool – Everton 20/3-2005
( ) ( )( )( ) ( )( ) ( )( )( ) ( ) 0.14)-0.12(1.22-0
0.270.12-1.22-0.12-0.37-5,0
0.600.12-0.37-11
=−==
=−−−==
=−−==
φ
φφ
φ
XYP
XYP
XYP
Sannolikheterna omvandlades sedan till odds genom invertering.
Tabell 5.2: Liverpool – Everton 20/3-2005, beräknade odds.
1 X 2
Sannolikhet 0,60 0,27 0,14
Odds 1,68 3,72 7,38
För att på ett rättvist sätt kunna jämföra med Unibets odds modifierades oddsen så att de
speglade deras beräknade sannolikhet utan riskpremie.
Tabell 5.3: Liverpool – Everton 20/3-2005, modifiering av Unibets odds.
1 X 2
Odds 1,80 3,05 4,80
Sannolikhet 0,556 0,328 0,208 Σ = 1,092
Modifierade odds 1,97 3,33 5,24
- 15 -
De beräknade oddsen i matchen Liverpool – Everton från 20/3-2005 ligger någorlunda
nära Unibets odds från samma match. För att undersöka modellens korrekthet
undersöktes hur ofta matchens lägsta odds gav rätt utfall, dvs. då laget med högst
sannolikhet att vinna i själva verket vann matchen. Den beräknade modellen träffade rätt i
200 av 380 matcher (52,6 %) mot Unibets 197 av 380 matcher (51,8 %). Vid användning
av de beräknade oddsen hade en spelad krona på det vinnande oddset i varje match gett
1123 kr eller 2.96 kr per match. Motsvarande för Unibets modifierade odds hade gett
1095 kr eller 2.88 kr per match.
Ett försök att undersöka effekten av att införa intervall för de olika variablerna gjordes.
Exempelvis delades tabellplaceringarna upp i fyra olika grupper där de på positionerna 1-
5 fick tabellvärde 1, de på positionerna 6-10 fick tabellvärde 2 osv. Detta gjordes för att
undersöka om resultatet blir bättre om topplagen och bottenlagen i serien segmenteras.
Resultaten blev svårtolkade då förändringar i antalet grupper samt införande av intervall
på andra variabler gav stora svängningar i både koefficienter och signifikans. Dessa stora
svängningar gjorde att inget bra resultat kunde fås och därmed inkluderades inte dessa
intervall i modellen.
Utöver att små förändringar i datamaterialet gav stora förändringar i resultatet har
modellens koefficienter dessutom höga standardfel och låg signifikans. Detta är enligt
Greene (2003) en indikation på att det kan förekomma multikollinearitet bland
variablerna. För att undersöka detta genomfördes ett VIF-test. Variablerna ”poängskörd
för hemmalaget” och ”poängskörd för bortalaget” fick värden på 6,25 respektive 6,00.
Detta kan tyda på viss multikollinearitet (se Tabell 5.4).
- 16 -
Tabell 5.4: VIF-test
Modell 1 Modell 2 Modell 3 Form för hemmalag (Ph) 1.94 - 1.35 Form för bortalag (Pb) 2.01 - 1.44 Uppflyttat hemmalag (Uh) 1.78 1.38 - Uppflyttat bortalag (Ub) 1.76 1.39 - Tabellplacering för hemmalag (Th) 3.70 - - Tabellplacering för bortalag (Tb) 3.62 - - Poängskörd för hemmalag (Pth) 6.25 - 3.11 Poängskörd för bortalag (Ptb) 6.00 - 3.19 Inbördes möten (I) 1.71 1.69 1.35 Avstånd (A) 1.03 1.02 - Slutplacering för hemmalag (Sh) 2.21 - - Slutplacering för bortalag (Sb) 2.36 - - Publiksnitt för hemmalag (Puh) 1.41 - - Publiksnitt för bortalag (Pub) 1.45 - - Differens i form (P) - 1.99 - Differens i tabellplacering (T) - 4.68 - Differens i poängskörd (Pt) - 3.8 - Differens i slutplacering (S) - 2.48 - Differens i publiksnitt (Pu) - 1.45 -
I ett försök att råda bot på multikollineariteten genomfördes en andra ordered probit
regression (Modell 2) där flera variabler har ”slagits ihop” till indexvariabler (se Tabell
5.1). I den andra regressionen fick vi åter igen en enda signifikant variabel, men i detta
fall är det variabeln ”differensen mellan hemma- och bortalagets slutplaceringar”.
Koefficienten fick även här ett negativt värde vilket återigen verkar logiskt då ett negativt
värde på koefficienten för variabeln ”differensen mellan hemma- och bortalagets
slutplaceringar” innebär att det av de mötande lagen som hade bäst slutplacering från
föregående säsong bör ha en större chans att vinna matchen. Den andra modellen träffade
rätt i 203 av 380 matcher (53,4 %) och en spelad krona på det vinnande oddset i varje
match gett 1122 kr eller 2.95 kr per match.
Ett VIF-test på den andra regressionen genomfördes (se Tabell 5.4). Resultatet blev den
här gången något bättre då det högsta värdet i detta VIF-test var 4,68. De två variablerna
”poängskörd för hemmalaget” och ”poängskörd för bortalaget” som fick värdena 6,25
respektive 6,00 i det första testet fick efter sammanslagningen värdet 3,80. Däremot steg
variablerna ”tabellplacering för hemmalaget” och ”tabellplacering för bortalaget” från
3,70 respektive 3,62 till ett sammanlagt värde av 4,68. Även om variabeln för
- 17 -
tabellplacering nu landade på ett värde som överstiger 4 är värdet ändå relativt lågt och
därmed tyder det inte på så hög multikollinearitet.
För att hitta vilka variabler som har hög korrelation användes en korrelationsmatris
(se Bilaga 3). I matrisen hittas hög korrelation mellan de olika variablerna för inbördes
möten, vilket är logiskt eftersom hemmalagets senaste fem möten med bortalaget givetvis
är desamma som bortalagets senaste fem möten med hemmalaget. För att råda bot på
detta problem användes endast det subtraherade värdet (I = Ih – Ib) i de båda modellerna.
Det borde även bli hög korrelation mellan poängskörden och tabellplaceringen eftersom
tabellplaceringen till största del bestäms av poängskörden. Korrelationsvärdena är dock
endast -0,41 mellan tabellplacering och poängskörd för hemmalaget och -0,37 för
bortalaget. Detta kan bero på att det inte finns tillräckligt med värden för att få en riktig
bild av korrelationen. Det kan också bero på de första omgångarna då lagen inte hunnit
samla ihop så mycket poäng att ett tydligt samband mellan poängskörd och
tabellplacering kan urskiljas.
Till sist skapades en tredje modell som endast innehöll de variabler som oftast
förekommer i media inför fotbollsmatcher (se Tabell 5.1). Denna modell innehöll
variablerna inbördes möten, form för hemma- respektive bortalag samt poängskörd för
hemma- respektive bortalag. Den nya modellen gav fyra signifikanta variabler. Den
tredje modellen träffade rätt i 198 av 380 matcher (52,1 %) och en spelad krona på det
vinnande oddset i varje match gett 1131 kr eller 2.98 kr per match. I korrelationsmatrisen
för modell 3 kan man urskilja att det inte finns någon hög korrelation (se Tabell 5.5). Det
upptäcks heller inte någon multikollinearitet (se Tabell 5.4).
- 18 -
Tabell 5.5: Korrelationsmatris (Modell 3)
Y Ph Pb Pth Ptb I
Y 1.00
Ph 0.10 1.00
Pb -0.26 0.02 1.00
Pth 0.12 0.35 -0.01 1.00 Ptb -0.12 0.02 0.37 0.67 1.00
I 0.27 0.29 -0.28 0.18 -0.22 1.00
En jämförelse mellan Unibets odds och de beräknade oddsen gjordes. De matcher där
Unibets odds var minst 50 procent högre än de beräknade oddsens lägsta odds valdes ut.
Vinsten för spel på det lägsta oddset i varje match beräknades i både urvalsgruppen och
det totala datamaterialet för samtliga tre modeller (se Tabell 5.6).
Tabell 5.6: Modelljämförelse
Modell 1 Modell 2 Modell 3 Antal rätt (A) 200 203 198 Utdelning i kr totalt (B) 1095 1122 1131 Vinst i kr vid spel på lägst odds (C) -4.7 2.4 -6.83 Vinst i kr vid spel på lägst odds för utvalda matcher (D) 3.7 -1.25 1.2 Kommentar: (A) visar antalet matcher där spel på modellens lägsta odds ger rätt utfall.
(B) visar den totala utdelningen, vid spel på respektive modells odds, vid en kronas spel på det vinnande utfallet i varje match. (C) visar vinsten/förlusten (utdelning – satsade pengar) vid en kronas spel på det utfall där modellens odds är lägst. Vinsten är beräknad för spel på Unibets odds på samtliga matcher. (D) visar samma som (C) men behandlar enbart matcher där Unibets odds är minst 50 % högre än modellens odds.
Samtliga tre modeller är bättre än Unibet på att förutse vinnare då de överträffar Unibet
som träffade rätt i 197 av 380 matcher (jmf. (A) i Tabell 5.6). Däremot betalar
modellerna ut mer pengar till spelarna än vad Unibet med sina 1095 kr gör (jmf. (B) i
Tabell 5.6). Vid spel på de utfall som i respektive modell gav lägst odds hade modell 2
gett positiv avkastning under säsongen vid spel på Unibets odds. Modellen hade alltså
kunnat användas för att hitta utfall att spela på hos Unibet för att generera positiv
avkastning. Vid spel på de utvalda matcherna hade både modell 1 och 3 gett positiv
avkastning.
- 19 -
6. Slutsats
Efter att en ordered probit modell körts så fås endast en signifikant variabel, ”bortalagets
form”. Den andra modellen, med skapade indexvariabler som syfte att minska
multikollineariteten, gav även den endast en signifikant variabel, nämligen ”differensen
mellan hemma- och bortalagets slutplaceringar”. Orsaken till varför det endast blir en
signifikant variabel kan vara att datamaterialet inte är tillräckligt stort. Forrest et al.
(2005) testade en modell med liknande variabler men hade ett mycket större datamaterial
och de flesta variablerna i deras modell visade sig vara signifikanta. De såg att oddsen
förbättrades ju mer data de tillade i upp till 15 säsonger, men större datamaterial än så
gav inte någon ökad effekt. Då denna uppsats datamaterial, till skillnad från Forrest et al.
(2005) undersökning, endast sträcker sig en säsong är det troligt att detta spelar in. I den
sista modellen blev fyra av fem variabler signifikanta.
För att undersöka modellernas korrekthet undersöktes hur ofta matchens lägsta odds gav
rätt utfall, dvs. då laget med högst sannolikhet att vinna i själva verket vann matchen.
Modellerna är bättre än Unibet på att förutse vinnare men betalar ut mer pengar till
spelarna än vad Unibet gör. Om man använder modellernas beräknade sannolikheter för
att bestämma vilket lag man ska satsa på och sedan spelar med Unibets odds så ger
modell 2 positiv avkastning under säsongen 2004/2005. Man kan alltså, med hjälp av
modell 2, tjäna pengar genom att systematiskt spela där modellen indikerar lägst odds.
När man studerar oddsen visar det sig att de beräknade modellerna ger mer extrema odds,
dvs. de lägsta oddsen är lägre än Unibets och de högsta oddsen är högre än Unibets. Detta
kan vara positivt då ett högre odds lockar fler spelare men också negativt då alldeles för
låga odds på favoriterna avskräcker spelare från att spela på dessa utfall. Allt för höga
odds medför större utbetalning om spelaren vinner, vilket ger bakslag när skrällar slår in.
Vid närmare undersökning av matcherna där Unibets odds är minst 50 procent högre än
de beräknade oddsen finner man att det nästan enbart handlar om matcher där ett av lagen
är ett ”topplag” och att modellen i dessa fall tror mer på det sämre laget än Unibet. Om
- 20 -
man spelar enbart på dessa matcher med hjälp av modellernas sannolikheter så ger
modell 1 och modell 3 positiv avkastning. Skälet till att modell 2 inte ger förbättrad
avkastning är troligtvis att vi i den modellen endast hittar fyra matcher där oddsskillnaden
är minst 50 %. Oddsen som beräknas i modell 2 ligger närmare Unibets odds och därför
hittas inte lika många ”utvalda matcher” som i de två andra modellerna.
Även om modellerna ger fler rätt än spelbolaget så saknar de en ”mänsklig faktor” vilken
skulle stoppa de mest extrema oddsen. Eftersom spelbolagen studerar vad spelarna själva
är villiga att ”köpa och sälja” för blir deras odds rätt om man antar att oddsmarknaden är
effektiv.
- 21 -
Källförteckning
Internetkällor
ESPNsoccernet
<http://soccernet.espn.go.com/stats/attendance?league=eng.1&year=2003&cc=5739>
2007-09-21
MapCrow
<http://www.mapcrow.info> 2007-09-18
Premier League
<http://www.premierleague.com> 2007-05-04
Statto.com
<http://www.statto.com> 2007-07-11
Svenska Spel
<http://www.svenskaspel.se/pl.aspx?PageID=3696&menuid=8&parentid=4314> 2007-
05-04
Unibet
<http://www.unibet.se> 2007-05-04
Unibet
<http://www.unibetgroupplc.com/corporate/templates/InformationPage.aspx?id=148>
2007-09-27
- 22 -
Litteraturlista
Greene, William H. (2003), Econometric Analysis. Upper Saddle River, N.J. Prentice-
Hall Pearson Education.
Gujarati, Damodar N. (2002), Basic Econometrics. Boston. McGraw-Hill.
Forrest D., Goddard J. & Simmons R. (2005), Odds-setters as forecasters: The case of
English football. International Journal of Forecasting 21, s. 551-564.
Maguire J. & Pearton R. (2000), The impact of elite labour migration on the
identification, selection and development of European soccer players. Journal of Sports
Sciences 18, s. 759-769.
Nationalencyklopedin: ett uppslagsverk på vetenskaplig grund utarbetat på initiativ av
Statens kulturråd (1994) Höganäs. Bra böcker.
O’Brien, Robert M. (2007), A Caution Regarding Rules of Thumb for Variance Inflation
Factors. Quality & Quantity 41, s. 673-690. Springer.
Intervju
Content Manager, 2008-09-05, Internetkonversation
- 23 -
Bilaga 1 (1)
Bilagor
Variabelförklaring
Beroende variabel
Y = Utfall i matchen (1 = hemmavinst, 0,5 = oavgjort, 0 = bortavinst).
Form
Ph och Pb är poängskörd de senaste fem matcherna för hemma- respektive bortalag.
P är differensen mellan hemma- och bortalagets poängskörd de senaste fem matcherna.
Uppflyttat lag
Uh och Ub är en dummyvariabel som visar om hemma- respektive bortalaget blev
uppflyttade från en lägre division från föregående säsong.
Tabellplacering
Th och Tb är aktuell tabellplacering för hemma- respektive bortalag.
T är differensen mellan hemma- och bortalagets tabellplacering.
Poängskörd
Pth och Ptb är total poängskörd för hemma- respektive bortalag.
Pt är differensen mellan hemma- och bortalagets totala poängskörd.
Inbördes möten
Ih och Ib är inbördes möten och visar poängskörd för hemma- respektive bortalag de
senaste fem mötena.
I är differensen mellan hemma- och bortalagets poängskörd från de senaste fem mötena
lagen emellan.
Avstånd
A är avståndet mellan lagens hemmaplaner.
Bilaga 1 (2)
Slutplacering
Sh och Sb är respektive lags slutplacering från föregående säsong.
S är differensen mellan hemma- och bortalagets slutplaceringar från föregående säsong.
Publiksnitt Puh och Pub är respektive lags publiksnitt från föregående säsong. Pu är differensen mellan hemma- och bortalagets publiksnitt från föregående säsong.