Ekonomi, kommunikation och IT - DiVA portal37518/FULLTEXT01.pdf · 2008-10-07 · lagen i...

31
Ekonomi, kommunikation och IT Marcus Lundgren Oskar Strandberg Sannolikheter i fotbollsmatcher – Kan man skapa användbara odds med hjälp av statistiska metoder? Probabilities in football games -Can you create functional odds with the use of statistical methods? Nationalekonomi C-uppsats Datum/Termin: HT 2008 Handledare: Joakim Persson Karlstads universitet 651 88 Karlstad Tfn 054-700 10 00 Fax 054-700 14 60 [email protected] www.kau.se

Transcript of Ekonomi, kommunikation och IT - DiVA portal37518/FULLTEXT01.pdf · 2008-10-07 · lagen i...

Ekonomi, kommunikation och IT

Marcus Lundgren Oskar Strandberg

Sannolikheter i fotbollsmatcher

– Kan man skapa användbara odds med hjälp av

statistiska metoder?

Probabilities in football games

-Can you create functional odds with the use of statistical methods?

Nationalekonomi C-uppsats

Datum/Termin: HT 2008 Handledare: Joakim Persson

Karlstads universitet 651 88 Karlstad Tfn 054-700 10 00 Fax 054-700 14 60

[email protected] www.kau.se

Abstract Betting under ordered forms has been around for a long time, but the recent increase in

Internet betting and the large sums of money that are now involved makes it even more

important for betting companies to have correct odds.

The purpose of the essay is to calculate probabilities for outcomes of football games

using a statistical model and to see if you can find better odds than a betting company.

The data contains the 380 games from the 2004/2005 season and the variables form,

head-to-heads, league position, points, home/away, average attendance, promoted team,

distance and final league position from previous season.

After performing an ordered probit regression we only find the variable “form of the

away team” to be significant at the 5 % level. We suspect the presence of

multicollinearity and perform a VIF-test which confirms this. To fix this problem we

perform a second ordered probit regression where a number of variables are combined to

index variables. In the second regression we once again find only one significant

variable. This time it is the variable “difference between home and away teams’ final

league position”. A reason for the lack of significant variables could be the size of the

data. A new model with five variables is examined and it results in four significant

variables.

The calculated odds pick the correct result in 200, 203 and 198 out of 380 games

respectively, compared to 197 out of 380 for Unibet. Betting one krona on the lowest

calculated odds from the second model will result in a positive yield for season

2004/2005 when using Unibet’s odds.

II

Sammanfattning

Vadslagning under ordnade former har funnits under en längre tid, men de senaste årens

explosionsartade ökning av Internetspel och de stora summor som då omsätts har gjort

det allt viktigare för spelbolagen att sätta korrekta odds.

Syftet med uppsatsen är att med hjälp av en statistisk modell räkna ut sannolikheter för

utfall i fotbollsmatcher och att undersöka om man kan hitta bättre odds än ett spelbolag.

Datamaterialet innefattar de 380 matcherna som spelades säsongen 2004/2005 samt de

oberoende variablerna form, inbördes möten, tabellplacering, poängskörd,

hemmaplan/bortaplan, publiksnitt, uppflyttat lag, avstånd och slutplacering.

Efter utförd ordered probit regression erhåller vi endast en signifikant variabel vid en

signifikansnivå på 5 %, nämligen ”bortalagets form”. Vi misstänker att det kan

förekomma multikollinearitet och utför därför ett VIF-test som bekräftar detta. För att

råda bot på detta problem genomför vi en andra ordered probit regression där flera

variabler slås ihop till indexvariabler. I den andra regressionen får vi åter igen en enda

signifikant variabel, men i detta fall är det variabeln ”differensen mellan hemma- och

bortalagets slutplaceringar”. Ett skäl till att det inte blir fler signifikanta variabler

misstänks vara storleken på datamaterialet. En ny modell med fem variabler undersöks

och då blir fyra variabler signifikanta.

De beräknade oddsen väljer rätt utfall i 200, 203 respektive 198 av 380 matcher för de tre

modellerna mot Unibets 197 av 380 matcher. I modell 2 ger en spelad krona på utfallet

med lägst beräknat odds positiv avkastning under säsongen vid spel hos Unibet.

III

Innehållsförteckning 1. Inledning ....................................................................................................................- 1 -

1.1 Bakgrund...............................................................................................................- 1 - 1.2 Syfte ......................................................................................................................- 1 - 1.3 Avgränsningar.......................................................................................................- 2 - 1.4 Metod ....................................................................................................................- 2 - 1.5 Disposition ............................................................................................................- 2 -

2. Tidigare studier.........................................................................................................- 3 - 3. Teori ...........................................................................................................................- 4 -

3.1 Premier League .....................................................................................................- 4 - 3.2 Odds ......................................................................................................................- 4 - 3.3 Hur sätter spelbolagen sina odds?.........................................................................- 6 - 3.4 Statistisk modell....................................................................................................- 6 - 3.5 Multikollinearitet ..................................................................................................- 7 -

4. Egen undersökning ...................................................................................................- 8 - 4.1 Variabler ...............................................................................................................- 8 -

4.1.1 Form...............................................................................................................- 8 - 4.1.2 Uppflyttat lag .................................................................................................- 8 - 4.1.3 Tabellplacering ..............................................................................................- 9 - 4.1.4 Poängskörd.....................................................................................................- 9 - 4.1.5 Inbördes möten.............................................................................................- 10 - 4.1.6 Avstånd ........................................................................................................- 10 - 4.1.7 Slutplacering ................................................................................................- 10 - 4.1.8 Publiksnitt ....................................................................................................- 10 -

4.2 Kritik mot val av variabler..................................................................................- 11 - 5. Analys.......................................................................................................................- 14 - 6. Slutsats .....................................................................................................................- 20 - Källförteckning ...........................................................................................................- 22 - Bilagor

IV

1. Inledning

1.1 Bakgrund Vadslagning under ordnade former har funnits under en längre tid. Ända sedan 1930-talet

har det funnits ett spelmonopol i Sverige då AB Tipstjänst, senare Svenska spel, fick

statens tillstånd att starta sin verksamhet. De första åren gick allt överskott direkt till

idrotten men sedan staten tog över samtliga aktier i bolaget år 1943 så tillfaller

överskottet både folk- och idrottsrörelsernas lokala barn- och ungdomsverksamhet samt

statskassan. (www.svenskaspel.se)

I slutet av 1990-talet började Internetbaserade spelbolag att dyka upp. Huvudkontor i

länder med gynnsamma skatteförhållanden i samband med möjligheten att, med hjälp av

Internet, nå ut till spelare över hela världen ökar konkurrensen avsevärt. Med de senaste

årens explosionsartade ökning av Internetspel och de stora summor som då omsätts så

blir det allt viktigare för spelbolagen att sätta korrekta odds för att generera så stora

vinster som möjligt och undvika stora förluster.

Unibet grundades 1997 och är nu ett av de största internetbaserade spelbolagen på den

europeiska marknaden med över 2,5 miljoner användare i mer än 150 länder. År 2000

bildades Unibet Group Plc med huvudkontor på Malta och förutom vanliga idrottsspel

finns bl.a. casino, poker och bingo tillgängligt att spela på. Fyra år senare noterades

Unibet på stockholmsbörsen. (www.unibetgroupplc.com)

1.2 Syfte Syftet med uppsatsen är att med hjälp av en statistisk modell räkna ut sannolikheter för

utfall i fotbollsmatcher. Kan man skapa odds som förutspår fotbollsmatcher bättre än ett

spelbolag? Kan man med hjälp av dessa odds, vid spel hos ett spelbolag, generera positiv

avkastning?

- 1 -

1.3 Avgränsningar Uppsatsen kommer att behandla fotbollsmatcher inom den högsta engelska divisionen,

Premier League. Data kommer att innefatta de 380 matcherna som spelades säsongen

2004/2005. I den statistiska modellen används faktorerna form, inbördes möten,

tabellplacering, poängskörd, hemmaplan/bortaplan, publiksnitt, uppflyttat lag, avstånd

och slutplacering. Variabler som cupspel, hot av nedflyttning eller eventuellt

nedflyttningsklart lag behandlas inte då det skulle kräva allt för mycket jobb. De

uträknade sannolikheterna från den statistiska modellen kommer att jämföras med

spelbolaget Unibets odds.

1.4 Metod För att undersöka om man kan hitta bättre odds än spelbolaget Unibet har vi samlat in

data om poäng, tabellplacering, publiksiffror, reseavstånd och slutresultat. Detta var

väldigt omfattande och tog upp en stor del av arbetets tid. Datamaterialet har sedan

används för att skapa variabler som vi misstänker kan påverka utgången i

fotbollsmatcher.

Efter detta användes statistikprogrammet STATA för att kunna skatta variablernas

koefficienter i en ordered probit modell. För att undersöka eventuell multikollinearitet

mellan variablerna genomfördes ett VIF-test. Totalt undersöktes tre olika modeller på

vilka odds beräknades.

1.5 Disposition Kapitel 2 ger en sammanfattad information om tidigare studier på ämnet ”oddssättning

med hjälp av statistiska modeller”. Kapitel 3 går igenom teori om hur Premier League

fungerar, hur oddssättning fungerar samt den statistiska modell som används. I kapitel 4

går vi sedan igenom de variabler som används samt kritik mot dem. Kapitel 4 är

analyskapitlet och det behandlar hur vi genomfört modellberäkningar samt vilka resultat

de gav. Till sist drar vi våra slutsatser i kapitel 6.

- 2 -

2. Tidigare studier Artikeln Odds-setters as forecasters: The case of English football försöker förutspå

matchresultat och använder sig, precis som denna uppsats, av en ordered probit modell.

Författarnas datamaterial innefattar nästan 10 000 matcher från olika divisioner i

England. Modellens odds förbättrades ju mer data de tillade i upp till 15 säsonger. Större

datamaterial än så gav dock inte någon ökad effekt. Författarna visar först att

oddssättarnas subjektiva prognoser inte var lika bra som prognoser från statistiska

modeller, men spelbolagens odds förbättrades avsevärt under den femårsperiod som

författarna undersökte och till slut kan de visa att subjektiva prognoser överträffar de rent

statistiska.

- 3 -

3. Teori

3.1 Premier League Premier League består av 20 lag. Alla lag möts både på hemmaplan och på bortaplan

under en säsong, alltså spelar varje lag 38 matcher under säsongen. För seger tilldelas

vinnaren 3 poäng och för oavgjort får de båda lagen 1 poäng vardera. Förlust ger 0 poäng.

Lagen rankas efter poäng och vid säsongens slut vinner laget med flest poäng. Om fler än

ett lag har samma poäng används i första hand målskillnad och i andra hand gjorda mål

för att skilja lagen åt.

Vinnaren och tvåan direktkvalificeras för spel i Champions League medan trean och

fyran i tabellen får kvala. Plats fem, sex och sju i tabellen får spela i UEFA-cupen

beroende på resultat i de inhemska cuperna FA-cupen och Liga-cupen. De tre sämst

placerade lagen degraderas till divisionen under, Championship. De två bäst placerade

lagen i Championship flyttas upp till Premier League medan trean, fyran, femman och

sexan får kvala om den sista platsen. (www.premierleague.com)

Premier League är den rikaste ligan i världen. Efter säsongens slut delas prispengar ut där

en högre tabellplacering genererar en högre summa. De bättre lagen visas också oftare

live på tv vilket i sin tur leder till högre intäkter från tv-rättigheter (Maguire och Pearton,

2000)

3.2 Odds Ett odds är förhållandet mellan vinst och insats vid spel om pengar

(Nationalencyklopedin). I Sverige redovisas odds i decimalform. Oddset visar det totala

beloppet som spelaren erhåller per spelade krona. Till exempel skulle en spelad krona på

Liverpool i matchen mellan Sunderland och Liverpool från 8 augusti 2007 (se Tabell 3.1)

ge 1 krona och 57 öre där 57 öre är vinsten.

- 4 -

Tabell 3.1: Sunderland-Liverpool 2007-08-25

1 X 2

Odds 6,00 3,65 1,57

Sannolikhet: (1/Odds) 0,167 0,274 0,637

Summa 1,078

(www.unibet.se)

Odds är inverterade sannolikheter där summan av sannolikheterna är 100 procent

(Nationalencyklopedin). Eftersom spelbolag är vinstmaximerande företag så läggs en

riskpremie på oddsen. Detta redovisas i exemplet i tabell 3.1. Sannolikheterna summerar

här upp till 107,8 procent. Denna riskpremie påverkar spelaren negativt eftersom oddsen

blir lägre. Riskpremien varierar något från match till match.

Tabell 3.2: Sunderland-Liverpool 2007-08-25, justerade värden.

1 X 2

Odds*1.078 6,468 3,935 1,692

1/(Odds*1.078) 0,155 0,254 0,591

Summa 1,000

För att räkna ut spelbolagets riktiga sannolikheter divideras 1 med oddset gånger

riskpremien. Dessa sannolikheter summerar nu till 100 procent (se Tabell 3.2). Vid

användning av spelbolagets riktiga sannolikheter blir oddsen 7,8 procent högre vilket

i sin tur leder till högre utdelning till spelarna.

- 5 -

3.3 Hur sätter spelbolagen sina odds? Spelbolagen brukade tidigare analysera matcherna för att komma fram till sannolikheter

men nu för tiden kollar man på marknaden och lägger sig där man tycker man har råd.

Spelbolagen kollar idag framförallt på Betfair när de sätter sina odds eftersom de är klart

störst på marknaden och de fungerar som en oddsbörs där spelare köper och säljer odds

av och till varandra för egna priser. Oddssättningen fungerar alltså som en vanlig

ekonomisk marknad där oddsen sätts efter utbud och efterfrågan. Utöver detta har

oddssättaren ofta kännedom om ungefär var oddset ska hamna och justerar sedan dessa

något efter skador och dylikt.

(Anonym Content Manager på ett spelbolag)

3.4 Statistisk modellProbit-modellerna använder sig av en ”Normal Cumulative Distribution Function”. De

diskreta utfallen beror på ett icke observerbart index ii XI 21 ββ += som beror av en

eller flera förklarande variabler. I sin enklaste form, den binära probit-modellen, finns det

endast två utfall. Om index-värdet överstiger ett kritiskt värde *iI antar den beroende

variabeln värdet 1. Om index-värdet är mindre än det kritiska värdet antar den beroende

variabeln värdet 0. Det kritiska värdet är inte observerbart, men det antas vara

normalfördelat med samma väntevärde och varians som index-värdet.

Givet antagandet om normalfördelning kan sannolikheten att *iI är mindre eller lika med

iI beräknas från den standardiserade normalfördelningsfunktionen.

( ) ( ) ( ) ( ) ( )iiiiiii XXFXZPIIPXYPP 212121*1 ββφββββ +=+=+≤=≤=== , där

( XYP 1= ) är sannolikheten att en händelse inträffar givet ett värde på den förklarande

variabeln X, är den standardiserade normfördelningsvariabeln (iZ ( )2,0~ σNZ ) och F

är den standardiserade normalfördelningsfunktionen. Ii fås av F-1, dvs. värdet på Ii fås

från normalfördelningskurvan givet värdet på Pi. (Gujarati, 2002)

- 6 -

Ordered probit är en modell med diskreta utfall som är rankade med inbördes ordning,

t.ex. 0, 1, 2. En linjär modell skulle behandla skillnaden mellan 0 och 1 på samma sätt

som mellan 1 och 2 trots att de egentligen bara är en rankning. Vid fler än två möjliga

utfall används ett antal gränsvärden, iμ , för att avgöra vilket utfall det blir.

( ) ( )( ) ( ) ( )( ) ( )*

2

*1

*2

*1

11

5,0

0

YXYP

YYXYP

YXYP

−−==

−−−==

−==

μφ

μφμφ

μφ

(Greene, 2003)

3.5 Multikollinearitet När två eller fler av de förklarande variablerna är korrelerade med varandra uppstår vissa

problem med modellen. Detta fenomen kallas för multikollinearitet. (Gujarati, 2002)

Symtom som pekar på multikollinearitet kan vara:

• Att små förändringar i datamaterialet ger stora svängningar i de skattade

parametrarna.

• Att koefficienter har höga standardfel och låg signifikans även om de tillsammans

utgör en signifikant variabel och regressionens förklaringsgrad är hög.

• Att koefficienter har ”fel” tecken och osannolika värden.

Ett sätt att undersöka om en variabel har problem med multikollinearitet är att genomföra

ett så kallat VIF-test (Variance Inflation Factor).

21,1 RtoleransdärTolerans

VIF −==

(Greene, 2003)

Ofta används gränsvärden mellan fyra och tio (eller en toleransnivå mellan 0,25 och 0,10)

för att avgöra om VIF-testet visar på multikollinearitet. För att råda bot på detta problem

kan man t.ex. kombinera variabler till en indexvariabel. (O’Brien, 2007)

- 7 -

4. Egen undersökning

4.1 Variabler Datamaterial samlades in från diverse Internetsidor. Publiksnitt hämtades från

soccernet.espn.go.com, reseavstånd hämtades från www.mapcrow.info medan poäng,

tabellplacering, och slutresultat hämtades från www.statto.com.

4.1.1 Form

En variabel som många anser vara viktig för att avgöra om ett lag kommer att vinna är

lagets form. Om laget har en formtopp påverkar det lagets moral positivt medan en

formsvacka kan påverka laget negativt med dålig stämning samt press från media och

supportrar.

Variabeln form har beräknats som lagets poäng de senaste fem matcherna. T.ex. skulle ett

lag som har vunnit tre matcher, spelat oavgjort en match och förlorat en match ha ett

formvärde på 10. Formen vid spelomgång t beräknas som:

∑−

−=

=5

1

t

tiit pForm , där p är poängen från spelomgång i.

Vid beräkning av form för omgång ett till fem används matcher från slutet av föregående

säsong. För nyuppflyttade lag används matcher från divisionen under.

4.1.2 Uppflyttat lag

Lag som i föregående säsong spelade i en lägre division är ofta ett sämre lag och har ofta

mindre pengar än de lag som befunnit sig längre i Premier League. Det är ofta hänt att de

lag som flyttats upp snart åker ner igen och då går miste om de stora summor pengar som

lagen i Premier League drar in.

- 8 -

Variabeln uppflyttat lag fungerar som en dummyvariabel där ett lag som spelade i en

lägre säsong året innan tilldelas värde 1 och övriga lag tilldelas värde 0.

4.1.3 Tabellplacering

Tabellplaceringen som ett lag innehar beror på poängskörden och skillnaden mellan

gjorda och insläppta mål. Ett lågt värde innebär att laget har spelat bra under säsongen

och vice versa. Variabeln tabellplacering anger skillnaden i tabellplacering mellan de lag

som möts. T.ex. skulle en match mellan det lag som ligger sist och ledaren generera ett

värde på 19 medan en match mellan två lag som ligger intill varandra i tabellen skulle ge

ett värde på 1 eller -1. När värdet på variabeln tabellplacering är nära 0 kan man anta att

det kommer att bli en jämnare match än om värdet på variabeln är högt. Variabeln

tabellplacering vid omgång t beräknas som:

BHt TTeringTabellplac −= , där T är tabellplaceringen för hemmalag H respektive

bortalag B.

De enskilda variablerna ”tabellplacering för hemmalaget” och ”tabellplacering för

bortalaget” används också för sig.

4.1.4 Poängskörd

Om ett lag har en stor sammanlagd poängskörd tyder det på att de är ett starkt lag. Denna

variabel kan visa på skillnader som tabellplaceringen inte visar. Till exempel kan två lag

ligga nära varandra i tabellen men det kan ändå skilja mycket poängmässigt. Förutom de

enskilda lagens poängskördar används även poängskillnaden som vid omgång t beräknas

som:

Poängskillnad , där P är den sammanlagda poängen för hemmalag H

respektive bortalag B.

BHt PP −=

- 9 -

4.1.5 Inbördes möten

Variabeln ”inbördes möten” visar de mötande lagens poängskörd de senaste fem

gångerna de två lagen mötts i ligasammanhang. I vårt fall innebar detta matcher i både

högsta och näst högsta divisionen. Den här variabeln används frekvent inom media för att

förutspå matchers utfall. Variabeln kanske mest påverkar det egna laget psykiskt då

media målar upp motståndarlaget som en ”mardrömsmotståndare” om laget har spelat

dåligt mot det andra laget på senare tid. Variabeln ”inbördes möten” vid omgång t

beräknas som:

∑−

−=

=5

1

t

tiit pmötenInbördes , där p är poängen från inbördes möte i.

4.1.6 Avstånd

Avståndet har beräknats mellan de mötande lagens orter. Vid derbyn blir värdet på

avståndsvariabeln med andra ord noll. Långa resor inför en match kan påverka spelarna

både psykiskt och fysiskt. Variabeln visar hur mycket reseavståndet påverkar resultatet i

en match.

4.1.7 Slutplacering

Slutplaceringen, från föregående säsong, ger en indikation om hur bra lagen är. Lagen får

också en monetär premie som varierar med slutplaceringen. Till detta tillkommer mer

fördelaktiga sponsor- och tv-kontrakt vid en hög slutplacering.

4.1.8 Publiksnitt

Denna variabel ska undersöka den påverkan publiken har på matcherna. Det är vida känt

att en stor publik påverkar spelarna på ett eller annat sätt. Hemmalaget kan dra nytta av

sina fans när det går bra och de får uppskattning för sina prestationer. Vissa spelare kan

dock uppleva att ett stort tryck från läktarna påverkar negativt då de får ökad

- 10 -

prestationsångest. Bortalaget påverkas ofta negativt av att spela inför läktare med många

hemmasupportrar då dessa vill se hemmalaget vinna. Går det däremot dåligt för

hemmalaget så kan hemmasupportrarna komma att vända sig mot sina egna spelare vilket

kan leda till ökad press och prestationsångest.

En annan aspekt på publiksiffrorna är att en stor publik ger ökade intäkter till klubben.

Om en klubb har haft ett bra publiksnitt medför det att de har mer pengar att spendera på

spelarinköp till nästa säsong samt öka lönerna för att behålla de befintliga spelarna.

Variabeln publiksnitt bestäms som varje lags genomsnittliga publiksiffra på hemmaplan

från föregående säsong.

4.2 Kritik mot val av variabler Vid beräkning av lagens form används poängskörden från deras fem senast spelade

matcher. Detta skapar problem i de fem första omgångarna då det inte har spelats

tillräckligt med matcher för att beräkna variabeln. Vi har löst detta genom att använda

data från slutet av föregående säsong. Formen är en ”färskvara” och kan bli missvisande

då gamla matcher används. Det kan bli extra missvisande för de lag som flyttats upp från

lägre division, då dessa mötte sämre lag i sina matcher från föregående säsong. En annan

faktor som påverkar variabelns pålitlighet är att vi endast räknat med ligamatcher. Lagen

kan ha spelat cupmatcher mellan ligamatcherna.

Variabeln tabellplacering tar inte hänsyn till att vissa matcher blir uppskjutna.

Tabellplaceringen är uträknad i efterhand, då de uppskjutna matcherna har spelats. Detta

medför att den tabellplacering som anges i variabelvärdet kan ha sett annorlunda ut då

matchen spelades. Tabellplaceringen kommer vara en bättre indikator mot slutet av

säsongen då lagens tabellplacering har stabiliserats och bättre speglar lagens fulla

potential. Inför första omgången så har alla lagen noll poäng vilket leder till att variabeln

för samtliga matcher kommer att vara noll.

Variabeln poängskörd kommer även den att vara en bättre indikator mot slutet av

säsongen då lagens poängskillnader har hunnit förändras under en längre tid. Inför första

- 11 -

omgången har alla lagen noll poäng vilket leder till att också denna variabel kommer att

vara noll för samtliga matcher.

Variabeln publiksnitt skall ge en indikation om hur rikt laget är, men publikintäkter är

bara en del av klubbens intäkter och ger inte en klar bild av lagets finansiella situation.

Publiksnittet skall också visa hur stort lagets publikstöd är, men publiksiffrorna kan skilja

sig stort från match till match och ett snitt från föregående säsong kan vara missvisande

för enskilda matcher.

Variabeln poängskörd är högt korrelerad med variabeln tabellplacering. Skillnaden är att

ett lag kan ligga på positionen under ett annat lag i tabellen, men ändå ha mycket färre

poäng. På samma sätt som variabeln tabellplacering så har vi inte tagit hänsyn till

uppskjutna matcher vid bestämmandet av denna variabel.

Variabeln avstånd tar inte hänsyn till vilket färdmedel som laget använder sig av. En

längre resa med flyg kanske är lika jobbig som en kortare resa med buss. Om ett lag ska

genomföra en lång resa inför en match som spelas tidigt på dagen åker de kanske dagen

innan matchen och övernattar. I detta fall är spelarna utvilade inför matchen och

avståndsvariabeln spelar en mindre roll.

Variabeln inbördes möten beräknas som ett lags poängskörd från de fem senaste

matcherna som spelats mot motståndarlaget. I vissa fall kan lagen ha spelat i olika

divisioner under en längre period och för att hitta de fem senaste mötena kan det vara

nödvändigt att gå så långt tillbaka som till 50-talet. I likhet med formvariabeln har vi här

endast räknat med ligamatcher och ignorerat eventuella cupmatcher.

Variabeln ”slutplacering” är bland annat tänkt att ge en indikation om hur bra laget är.

Det kan ha skett stora förändringar i truppen sen föregående säsong vilket skulle försämra

variabelns förmåga att ”förutspå” den nuvarande truppens kvalitet. En annan tanke är att

variabeln skall ge information om klubbens intäkter. På samma sätt som variabeln

- 12 -

publiksnitt så är intäkterna från slutplaceringen bara en del av klubbens alla intäkter och

ger inte någon helhetsbild av klubbens finanser.

- 13 -

5. Analys Forrest, Goddard & Simmons (2005) använder sig av ordered probit när de ska estimera

sannolikheter för olika utfall i fotbollsmatcher. Då denna undersökning liknar deras

används samma modell. Den första ordered probit regressionen (Modell 1), med samtliga

variabler från datamaterialet, genomfördes (se Tabell 5.1).

Tabell 5.1: Beroende variabel matchutfall (1; 0,5; 0)

Modell 1 Modell 2 Modell 3 Form för hemmalag (Ph) -0.01 (0.02) - -0.01 (0.02) Form för bortalag (Pb) -0.06 (0.03)** - -0.06 (0.02)*** Uppflyttat hemmalag (Uh) 0.06 (0.22) 0.09 (0.19) - Uppflyttat bortalag (Ub) 0.03 (0.22) 0.06 (0.20) - Tabellplacering för hemmalag (Th) 0.01 (0.02) - - Tabellplacering för bortalag (Tb) -0.01 (0.02) - - Poängskörd för hemmalag (Pth) 0.01 (0.01) - 0.02 (0.01)*** Poängskörd för bortalag (Ptb) -0.01 (0.01) - -0.01 (0.01)** Inbördes möten (I) 0.01 (0.01) 0.01 (0.01) 0.03 (0.01)*** Avstånd (A) 0.00 (0.00) 0.00 (0.00) - Slutplacering för hemmalag (Sh) -0.02 (0.02) - - Slutplacering för bortalag (Sb) 0.02 (0.02) - - Publiksnitt för hemmalag (Puh) 0.00 (0.00) - - Publiksnitt för bortalag (Pub) 0.00 (0.00) - - Differens i form (P) - 0.02 (0.02) - Differens i tabellplacering (T) - 0.01 (0.02) - Differens i poängskörd (Pt) - 0.01 (0.01) - Differens i slutplacering (S) - -0.02 (0.01)** - Differens i publiksnitt (Pu) - 0.00 (0.00) - μ1 -1.22 (0.58) -0.74 (0.13) -1.07 (0.19) μ2 -0.37 (0.57) 0.12 (0.13) -0.23 (0.19) Pseudo R2 0.07 0.07 0.06 Observationer 380 380 380 Log likelihood 375.05 -377.50 -378.93 Kommentar: ***indikerar signifikans på 1 % signifikansnivå.

** indikerar signifikans på 5 % signifikansnivå.

Vid en signifikansnivå på 5 % fås endast en signifikant variabel, nämligen ”bortalagets

form”. Koefficienten fick ett negativt värde vilket verkar logiskt eftersom ett negativt

värde på koefficienten för variabeln ”bortalagets form” innebär att ett bortalag som tagit

många poäng de senaste matcherna bör ha en större chans att få med sig poäng från

bortamatchen. Med hjälp av en ordered probit modell togs sannolikheter för hemmavinst,

oavgjort och bortavinst fram.

- 14 -

PubPuhSbShA

IPtbPthTbThUbUhPbPh

PubPuhSbShA

IPtbPthTbThUbUhPbPh

XXXXXXXXXXXXXXY

XPubXPuhXSbXShXAXIXPtbXPthXTbXThXUbXUhXPbXPh

0.00-0.000.020.02-0.00-0.010.01-0.010.01-0.010.030.060.06--0.01

Y

+++++++=

⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅=

(se Modell 1, Tabell 5.1)

Ex. Liverpool – Everton 20/3-2005

( ) ( )( )( ) ( )( ) ( )( )( ) ( ) 0.14)-0.12(1.22-0

0.270.12-1.22-0.12-0.37-5,0

0.600.12-0.37-11

=−==

=−−−==

=−−==

φ

φφ

φ

XYP

XYP

XYP

Sannolikheterna omvandlades sedan till odds genom invertering.

Tabell 5.2: Liverpool – Everton 20/3-2005, beräknade odds.

1 X 2

Sannolikhet 0,60 0,27 0,14

Odds 1,68 3,72 7,38

För att på ett rättvist sätt kunna jämföra med Unibets odds modifierades oddsen så att de

speglade deras beräknade sannolikhet utan riskpremie.

Tabell 5.3: Liverpool – Everton 20/3-2005, modifiering av Unibets odds.

1 X 2

Odds 1,80 3,05 4,80

Sannolikhet 0,556 0,328 0,208 Σ = 1,092

Modifierade odds 1,97 3,33 5,24

- 15 -

De beräknade oddsen i matchen Liverpool – Everton från 20/3-2005 ligger någorlunda

nära Unibets odds från samma match. För att undersöka modellens korrekthet

undersöktes hur ofta matchens lägsta odds gav rätt utfall, dvs. då laget med högst

sannolikhet att vinna i själva verket vann matchen. Den beräknade modellen träffade rätt i

200 av 380 matcher (52,6 %) mot Unibets 197 av 380 matcher (51,8 %). Vid användning

av de beräknade oddsen hade en spelad krona på det vinnande oddset i varje match gett

1123 kr eller 2.96 kr per match. Motsvarande för Unibets modifierade odds hade gett

1095 kr eller 2.88 kr per match.

Ett försök att undersöka effekten av att införa intervall för de olika variablerna gjordes.

Exempelvis delades tabellplaceringarna upp i fyra olika grupper där de på positionerna 1-

5 fick tabellvärde 1, de på positionerna 6-10 fick tabellvärde 2 osv. Detta gjordes för att

undersöka om resultatet blir bättre om topplagen och bottenlagen i serien segmenteras.

Resultaten blev svårtolkade då förändringar i antalet grupper samt införande av intervall

på andra variabler gav stora svängningar i både koefficienter och signifikans. Dessa stora

svängningar gjorde att inget bra resultat kunde fås och därmed inkluderades inte dessa

intervall i modellen.

Utöver att små förändringar i datamaterialet gav stora förändringar i resultatet har

modellens koefficienter dessutom höga standardfel och låg signifikans. Detta är enligt

Greene (2003) en indikation på att det kan förekomma multikollinearitet bland

variablerna. För att undersöka detta genomfördes ett VIF-test. Variablerna ”poängskörd

för hemmalaget” och ”poängskörd för bortalaget” fick värden på 6,25 respektive 6,00.

Detta kan tyda på viss multikollinearitet (se Tabell 5.4).

- 16 -

Tabell 5.4: VIF-test

Modell 1 Modell 2 Modell 3 Form för hemmalag (Ph) 1.94 - 1.35 Form för bortalag (Pb) 2.01 - 1.44 Uppflyttat hemmalag (Uh) 1.78 1.38 - Uppflyttat bortalag (Ub) 1.76 1.39 - Tabellplacering för hemmalag (Th) 3.70 - - Tabellplacering för bortalag (Tb) 3.62 - - Poängskörd för hemmalag (Pth) 6.25 - 3.11 Poängskörd för bortalag (Ptb) 6.00 - 3.19 Inbördes möten (I) 1.71 1.69 1.35 Avstånd (A) 1.03 1.02 - Slutplacering för hemmalag (Sh) 2.21 - - Slutplacering för bortalag (Sb) 2.36 - - Publiksnitt för hemmalag (Puh) 1.41 - - Publiksnitt för bortalag (Pub) 1.45 - - Differens i form (P) - 1.99 - Differens i tabellplacering (T) - 4.68 - Differens i poängskörd (Pt) - 3.8 - Differens i slutplacering (S) - 2.48 - Differens i publiksnitt (Pu) - 1.45 -

I ett försök att råda bot på multikollineariteten genomfördes en andra ordered probit

regression (Modell 2) där flera variabler har ”slagits ihop” till indexvariabler (se Tabell

5.1). I den andra regressionen fick vi åter igen en enda signifikant variabel, men i detta

fall är det variabeln ”differensen mellan hemma- och bortalagets slutplaceringar”.

Koefficienten fick även här ett negativt värde vilket återigen verkar logiskt då ett negativt

värde på koefficienten för variabeln ”differensen mellan hemma- och bortalagets

slutplaceringar” innebär att det av de mötande lagen som hade bäst slutplacering från

föregående säsong bör ha en större chans att vinna matchen. Den andra modellen träffade

rätt i 203 av 380 matcher (53,4 %) och en spelad krona på det vinnande oddset i varje

match gett 1122 kr eller 2.95 kr per match.

Ett VIF-test på den andra regressionen genomfördes (se Tabell 5.4). Resultatet blev den

här gången något bättre då det högsta värdet i detta VIF-test var 4,68. De två variablerna

”poängskörd för hemmalaget” och ”poängskörd för bortalaget” som fick värdena 6,25

respektive 6,00 i det första testet fick efter sammanslagningen värdet 3,80. Däremot steg

variablerna ”tabellplacering för hemmalaget” och ”tabellplacering för bortalaget” från

3,70 respektive 3,62 till ett sammanlagt värde av 4,68. Även om variabeln för

- 17 -

tabellplacering nu landade på ett värde som överstiger 4 är värdet ändå relativt lågt och

därmed tyder det inte på så hög multikollinearitet.

För att hitta vilka variabler som har hög korrelation användes en korrelationsmatris

(se Bilaga 3). I matrisen hittas hög korrelation mellan de olika variablerna för inbördes

möten, vilket är logiskt eftersom hemmalagets senaste fem möten med bortalaget givetvis

är desamma som bortalagets senaste fem möten med hemmalaget. För att råda bot på

detta problem användes endast det subtraherade värdet (I = Ih – Ib) i de båda modellerna.

Det borde även bli hög korrelation mellan poängskörden och tabellplaceringen eftersom

tabellplaceringen till största del bestäms av poängskörden. Korrelationsvärdena är dock

endast -0,41 mellan tabellplacering och poängskörd för hemmalaget och -0,37 för

bortalaget. Detta kan bero på att det inte finns tillräckligt med värden för att få en riktig

bild av korrelationen. Det kan också bero på de första omgångarna då lagen inte hunnit

samla ihop så mycket poäng att ett tydligt samband mellan poängskörd och

tabellplacering kan urskiljas.

Till sist skapades en tredje modell som endast innehöll de variabler som oftast

förekommer i media inför fotbollsmatcher (se Tabell 5.1). Denna modell innehöll

variablerna inbördes möten, form för hemma- respektive bortalag samt poängskörd för

hemma- respektive bortalag. Den nya modellen gav fyra signifikanta variabler. Den

tredje modellen träffade rätt i 198 av 380 matcher (52,1 %) och en spelad krona på det

vinnande oddset i varje match gett 1131 kr eller 2.98 kr per match. I korrelationsmatrisen

för modell 3 kan man urskilja att det inte finns någon hög korrelation (se Tabell 5.5). Det

upptäcks heller inte någon multikollinearitet (se Tabell 5.4).

- 18 -

Tabell 5.5: Korrelationsmatris (Modell 3)

Y Ph Pb Pth Ptb I

Y 1.00

Ph 0.10 1.00

Pb -0.26 0.02 1.00

Pth 0.12 0.35 -0.01 1.00 Ptb -0.12 0.02 0.37 0.67 1.00

I 0.27 0.29 -0.28 0.18 -0.22 1.00

En jämförelse mellan Unibets odds och de beräknade oddsen gjordes. De matcher där

Unibets odds var minst 50 procent högre än de beräknade oddsens lägsta odds valdes ut.

Vinsten för spel på det lägsta oddset i varje match beräknades i både urvalsgruppen och

det totala datamaterialet för samtliga tre modeller (se Tabell 5.6).

Tabell 5.6: Modelljämförelse

Modell 1 Modell 2 Modell 3 Antal rätt (A) 200 203 198 Utdelning i kr totalt (B) 1095 1122 1131 Vinst i kr vid spel på lägst odds (C) -4.7 2.4 -6.83 Vinst i kr vid spel på lägst odds för utvalda matcher (D) 3.7 -1.25 1.2 Kommentar: (A) visar antalet matcher där spel på modellens lägsta odds ger rätt utfall.

(B) visar den totala utdelningen, vid spel på respektive modells odds, vid en kronas spel på det vinnande utfallet i varje match. (C) visar vinsten/förlusten (utdelning – satsade pengar) vid en kronas spel på det utfall där modellens odds är lägst. Vinsten är beräknad för spel på Unibets odds på samtliga matcher. (D) visar samma som (C) men behandlar enbart matcher där Unibets odds är minst 50 % högre än modellens odds.

Samtliga tre modeller är bättre än Unibet på att förutse vinnare då de överträffar Unibet

som träffade rätt i 197 av 380 matcher (jmf. (A) i Tabell 5.6). Däremot betalar

modellerna ut mer pengar till spelarna än vad Unibet med sina 1095 kr gör (jmf. (B) i

Tabell 5.6). Vid spel på de utfall som i respektive modell gav lägst odds hade modell 2

gett positiv avkastning under säsongen vid spel på Unibets odds. Modellen hade alltså

kunnat användas för att hitta utfall att spela på hos Unibet för att generera positiv

avkastning. Vid spel på de utvalda matcherna hade både modell 1 och 3 gett positiv

avkastning.

- 19 -

6. Slutsats

Efter att en ordered probit modell körts så fås endast en signifikant variabel, ”bortalagets

form”. Den andra modellen, med skapade indexvariabler som syfte att minska

multikollineariteten, gav även den endast en signifikant variabel, nämligen ”differensen

mellan hemma- och bortalagets slutplaceringar”. Orsaken till varför det endast blir en

signifikant variabel kan vara att datamaterialet inte är tillräckligt stort. Forrest et al.

(2005) testade en modell med liknande variabler men hade ett mycket större datamaterial

och de flesta variablerna i deras modell visade sig vara signifikanta. De såg att oddsen

förbättrades ju mer data de tillade i upp till 15 säsonger, men större datamaterial än så

gav inte någon ökad effekt. Då denna uppsats datamaterial, till skillnad från Forrest et al.

(2005) undersökning, endast sträcker sig en säsong är det troligt att detta spelar in. I den

sista modellen blev fyra av fem variabler signifikanta.

För att undersöka modellernas korrekthet undersöktes hur ofta matchens lägsta odds gav

rätt utfall, dvs. då laget med högst sannolikhet att vinna i själva verket vann matchen.

Modellerna är bättre än Unibet på att förutse vinnare men betalar ut mer pengar till

spelarna än vad Unibet gör. Om man använder modellernas beräknade sannolikheter för

att bestämma vilket lag man ska satsa på och sedan spelar med Unibets odds så ger

modell 2 positiv avkastning under säsongen 2004/2005. Man kan alltså, med hjälp av

modell 2, tjäna pengar genom att systematiskt spela där modellen indikerar lägst odds.

När man studerar oddsen visar det sig att de beräknade modellerna ger mer extrema odds,

dvs. de lägsta oddsen är lägre än Unibets och de högsta oddsen är högre än Unibets. Detta

kan vara positivt då ett högre odds lockar fler spelare men också negativt då alldeles för

låga odds på favoriterna avskräcker spelare från att spela på dessa utfall. Allt för höga

odds medför större utbetalning om spelaren vinner, vilket ger bakslag när skrällar slår in.

Vid närmare undersökning av matcherna där Unibets odds är minst 50 procent högre än

de beräknade oddsen finner man att det nästan enbart handlar om matcher där ett av lagen

är ett ”topplag” och att modellen i dessa fall tror mer på det sämre laget än Unibet. Om

- 20 -

man spelar enbart på dessa matcher med hjälp av modellernas sannolikheter så ger

modell 1 och modell 3 positiv avkastning. Skälet till att modell 2 inte ger förbättrad

avkastning är troligtvis att vi i den modellen endast hittar fyra matcher där oddsskillnaden

är minst 50 %. Oddsen som beräknas i modell 2 ligger närmare Unibets odds och därför

hittas inte lika många ”utvalda matcher” som i de två andra modellerna.

Även om modellerna ger fler rätt än spelbolaget så saknar de en ”mänsklig faktor” vilken

skulle stoppa de mest extrema oddsen. Eftersom spelbolagen studerar vad spelarna själva

är villiga att ”köpa och sälja” för blir deras odds rätt om man antar att oddsmarknaden är

effektiv.

- 21 -

Källförteckning

Internetkällor

ESPNsoccernet

<http://soccernet.espn.go.com/stats/attendance?league=eng.1&year=2003&cc=5739>

2007-09-21

MapCrow

<http://www.mapcrow.info> 2007-09-18

Premier League

<http://www.premierleague.com> 2007-05-04

Statto.com

<http://www.statto.com> 2007-07-11

Svenska Spel

<http://www.svenskaspel.se/pl.aspx?PageID=3696&menuid=8&parentid=4314> 2007-

05-04

Unibet

<http://www.unibet.se> 2007-05-04

Unibet

<http://www.unibetgroupplc.com/corporate/templates/InformationPage.aspx?id=148>

2007-09-27

- 22 -

Litteraturlista

Greene, William H. (2003), Econometric Analysis. Upper Saddle River, N.J. Prentice-

Hall Pearson Education.

Gujarati, Damodar N. (2002), Basic Econometrics. Boston. McGraw-Hill.

Forrest D., Goddard J. & Simmons R. (2005), Odds-setters as forecasters: The case of

English football. International Journal of Forecasting 21, s. 551-564.

Maguire J. & Pearton R. (2000), The impact of elite labour migration on the

identification, selection and development of European soccer players. Journal of Sports

Sciences 18, s. 759-769.

Nationalencyklopedin: ett uppslagsverk på vetenskaplig grund utarbetat på initiativ av

Statens kulturråd (1994) Höganäs. Bra böcker.

O’Brien, Robert M. (2007), A Caution Regarding Rules of Thumb for Variance Inflation

Factors. Quality & Quantity 41, s. 673-690. Springer.

Intervju

Content Manager, 2008-09-05, Internetkonversation

- 23 -

Bilaga 1 (1)

Bilagor

Variabelförklaring

Beroende variabel

Y = Utfall i matchen (1 = hemmavinst, 0,5 = oavgjort, 0 = bortavinst).

Form

Ph och Pb är poängskörd de senaste fem matcherna för hemma- respektive bortalag.

P är differensen mellan hemma- och bortalagets poängskörd de senaste fem matcherna.

Uppflyttat lag

Uh och Ub är en dummyvariabel som visar om hemma- respektive bortalaget blev

uppflyttade från en lägre division från föregående säsong.

Tabellplacering

Th och Tb är aktuell tabellplacering för hemma- respektive bortalag.

T är differensen mellan hemma- och bortalagets tabellplacering.

Poängskörd

Pth och Ptb är total poängskörd för hemma- respektive bortalag.

Pt är differensen mellan hemma- och bortalagets totala poängskörd.

Inbördes möten

Ih och Ib är inbördes möten och visar poängskörd för hemma- respektive bortalag de

senaste fem mötena.

I är differensen mellan hemma- och bortalagets poängskörd från de senaste fem mötena

lagen emellan.

Avstånd

A är avståndet mellan lagens hemmaplaner.

Bilaga 1 (2)

Slutplacering

Sh och Sb är respektive lags slutplacering från föregående säsong.

S är differensen mellan hemma- och bortalagets slutplaceringar från föregående säsong.

Publiksnitt Puh och Pub är respektive lags publiksnitt från föregående säsong. Pu är differensen mellan hemma- och bortalagets publiksnitt från föregående säsong.

Bilaga 2

Utdrag från datamaterial (omgång 18 a

Bilaga 3

Korrelationsmatris 1