vrijdag 10 juni 2016

Frankrijk wordt Europees kampioen (of niet)


Het EK staat op het punt van beginnen en geen toernooi kan voorbij gaan zonder eerst een voorspelling te hebben gedaan. Wie gaat er verrassen? We doen een voorspelling op basis van een statistisch model.

Allereerst bekijken we hoe de landen hebben gepresteerd tijdens de kwalificatiereeks. Hierbij gebruiken we een model dat ik heb gecreëerd voor het clubvoetbal, maar vermoedelijk ook wel zal werken voor het interlandvoetbal. Het kijkt naar het doelsaldo en schotsaldo (vergelijkbaar met het doelsaldo: het aantal schoten voor - het aantal schoten tegen). Het doelsaldo en schotsaldo gecombineerd levert in het algemeen een betere voorspelling op dan wanneer je deze twee afzonderlijk zou gebruiken. Uiteraard zijn er van Frankrijk geen data: zij hoefden zich als gastland niet te kwalificeren om mee te doen aan het EK. De rating die uit het model komt is het aantal punten per wedstrijd dat het land verwacht wordt op lange termijn in de kwalificatie te halen, op basis van het schotsaldo en doelsaldo.

Land Schotsaldo per wedstrijd Doelsaldo per wedstrijd Rating
Engeland 14,0 2,8 1,97
België 14,4 1,9 1,87
Duitsland 16,5 1,5 1,85
Oostenrijk 11,1 1,7 1,78
Spanje 9,0 2,0 1,78
Zwitserland 11,0 1,6 1,77
Rusland 10,1 1,6 1,75
Polen 4,0 2,3 1,73
Kroatië 7,6 1,5 1,69
Italië 9,0 0,9 1,64
Oekraïne 7,7 1,0 1,63
Roemenië 5,8 0,9 1,59
Ierland 2,2 1,2 1,56
Portugal 5,1 0,8 1,55
Wales 5,2 0,7 1,55
Turkije 5,0 0,5 1,52
Zweden 4,2 0,6 1,52
Noord-Ierland 2,8 0,8 1,52
IJsland 0,1 1,1 1,51
Tsjechië 2,6 0,5 1,48
Slowakije -1,6 0,9 1,45
Hongarije 2,1 0,2 1,43
Albanië -4,1 0,6 1,37

Dit alleen gebruiken als voorspeller is echter niet genoeg. 10 wedstrijden is een redelijke hoeveelheid om een indruk te krijgen van de kwaliteiten van teams, maar idealiter zouden meer wedstrijden gebruikt moeten worden. Daarnaast zal het niet zo te zijn dat de verschillende poules waarin de landen zaten allemaal even sterk zijn. Ook kunnen zaken als blessures invloed hebben op de huidige kwaliteit van de teams. En bovenal zou het handig zijn ook data te kunnen hebben van Frankrijk.

Daarom proberen we ook de spelerskwaliteiten van de huidige EK-selecties in te schatten. Hierbij maken we gebruik van de geschatte spelerswaarden volgens de website www.transfermarkt.nl en de ratings van de website www.whoscored.com. De keuze voor de laatstgenoemde rating is omdat het eenvoudig toegankelijk is, een rating is die voor spelers op alle posities op dezelfde manier gebruikt kan worden en de rating een sterke samenhang laat zien met toekomstig resultaat. Voor de landen waarin de ratings niet beschikbaar zijn heb ik een inschatting gemaakt van de rating die ze waarschijnlijk zouden hebben gekregen op basis van het aantal speelminuten, aantal doelpunten en het doelsaldo van de club waar de speler speelt. Omdat uiteraard niet alle competities een op een met elkaar te vergelijken zijn heb ik gewogen voor het competitiegemiddelde in de Euro Club Index van de competitie waarin de speler speelt.

Land Transferwaarde Whoscored Kwalificatie Rating
Spanje 24,24 (2e) 7,40 (1e) 1,78 (5e) 2,09
Frankrijk 19,67 (4e) 7,35 (2e) / 1,99
Duitsland 24,43 (1e) 7,25 (3e) 1,85 (3e) 1,99
Engeland 19,39 (5e) 7,23 (4e) 1,97 (1e) 1,92
België 20,04 (3e) 7,11 (6e) 1,87 (2e) 1,80
Portugal 14,42 (6e) 7,21 (5e) 1,55 (14e) 1,72
Italië 11,83 (8e) 7,09 (7e) 1,64 (10e) 1,59
Kroatië 11,84 (7e) 6,96 (12e) 1,69 (9e) 1,49
Zwitserland 7,50 (11e) 6,96 (11e) 1,77 (6e) 1,41
Rusland 5,80 (13e) 7,00 (8e) 1,75 (7e) 1,39
Polen 7,62 (10e) 6,91 (14e) 1,73 (8e) 1,36
Oostenrijk 5,58 (15e) 6,95 (13e) 1,78 (4e) 1,34
Turkije 8,09 (9e) 6,89 (15e) 1,52 (16e) 1,31
Oekraïne 5,59 (14e) 6,89 (16e) 1,63 (11e) 1,26
Zweden 3,78 (18e) 6,97 (9e) 1,52 (17e) 1,24
Wales 7,33 (12e) 6,83 (18e) 1,55 (15e) 1,24
Tsjechië 2,80 (19e) 6,96 (10e) 1,48 (20e) 1,19
Ierland 3,88 (17e) 6,89 (17e) 1,56 (13e) 1,19
Slowakije 3,95 (16e) 6,82 (20e) 1,45 (21e) 1,11
Roemenië 2,43 (20e) 6,82 (19e) 1,59 (12e) 1,08
IJsland 1,81 (21e) 6,72 (21e) 1,51 (19e) 0,95
Albanië 1,78 (22e) 6,66 (22e) 1,37 (23e) 0,87
Noord-Ierland 1,56 (23e) 6,61 (24e) 1,52 (18e) 0,85
Hongarije 1,19 (24e) 6,63 (23e) 1,43 (22e) 0,82

Het laatste waar we nu nog rekening mee moeten houden is thuisvoordeel. We kunnen niet zomaar aannemen dat het thuisvoordeel in interlands even groot is als in het clubvoetbal: thuisvoordeel wordt immers waarschijnlijk grotendeels veroorzaakt door de steun van de thuissupporters, en bij interlands is onmiskenbaar een andere sfeer in het stadion dan bij clubwedstrijden. We kunnen ook niet zomaar het gemiddelde thuisvoordeel in voorgaande eindtoernooien gebruiken: eindtoernooien worden immers relatief vaak toebedeeld aan een groot voetballand. Op deze manier het thuisvoordeel bepalen zal tot een te hoge inschatting ervan leiden. Daarom gebruiken we het gemiddelde thuisvoordeel tijdens de kwalificatiewedstrijden voor het EK. Tijdens de kwalificatie was 53% van de doelpunten voor de thuisploeg en dat is het thuisvoordeel dat we voor Frankrijk zullen gebruiken.

Met deze ratings en thuisvoordeel simuleren we het toernooi 20.000 keer om een voorspelling te doen. In onderstaande tabellen staat de voorspelling voor de poulefase en het toernooiverloop. De rating in de tweede tabel is de rating inclusief het thuisvoordeel van Frankrijk.

Land Poule Verw pos 1 2 3 4
Frankrijk A 1,4 69% 21% 7% 2%
Zwitserland A 2,5 17% 37% 28% 17%
Roemenië A 2,9 8% 25% 34% 33%
Albanië A 3,2 5% 17% 30% 47%
Engeland B 1,7 56% 25% 13% 6%
Rusland B 2,6 19% 29% 28% 24%
Wales B 2,8 14% 25% 30% 31%
Slowakije B 3,0 10% 21% 30% 39%
Duitsland C 1,6 62% 24% 10% 4%
Polen C 2,5 18% 32% 29% 21%
Oekraïne C 2,7 14% 29% 32% 25%
Noord-Ierland C 3,2 6% 15% 29% 51%
Spanje D 1,6 61% 23% 10% 5%
Kroatië D 2,6 18% 31% 28% 22%
Turkije D 2,9 12% 24% 31% 33%
Tsjechië D 3,0 9% 21% 30% 39%
België E 1,9 44% 28% 17% 10%
Italië E 2,3 30% 30% 23% 17%
Zweden E 2,8 14% 22% 30% 34%
Ierland E 2,9 12% 20% 29% 39%
Portugal F 1,7 54% 27% 13% 6%
Oostenrijk F 2,3 27% 33% 24% 16%
IJsland F 2,9 11% 22% 33% 35%
Hongarije F 3,1 8% 18% 30% 43%







Land Rating 2e ronde ¼ finale ½ finale Finale Winnaar
Frankrijk 2,14 96% 72% 52% 34% 22%
Spanje 2,09 93% 68% 47% 31% 19%
Duitsland 1,99 94% 66% 41% 24% 14%
Engeland 1,92 91% 62% 38% 21% 11%
België 1,80 86% 50% 29% 15% 7%
Portugal 1,72 91% 52% 27% 13% 6%
Italië 1,59 77% 39% 20% 9% 4%
Kroatië 1,49 69% 33% 15% 6% 2%
Zwitserland 1,41 73% 36% 15% 6% 2%
Rusland 1,39 68% 34% 14% 5% 2%
Oostenrijk 1,34 77% 33% 13% 5% 2%
Polen 1,36 70% 32% 13% 5% 2%
Turkije 1,31 56% 23% 10% 3% 1%
Oekraïne 1,26 64% 27% 10% 4% 1%
Zweden 1,24 57% 22% 8% 3% 1%
Wales 1,24 59% 26% 9% 3% 1%
Tsjechië 1,19 49% 18% 7% 2% 1%
Ierland 1,19 51% 18% 7% 2% 1%
Roemenië 1,08 53% 20% 7% 2% 1%
Slowakije 1,11 50% 20% 6% 2% 1%
IJsland 0,95 53% 16% 5% 1% 0,3%
Hongarije 0,82 45% 12% 3% 1% 0,1%
Albanië 0,87 39% 11% 3% 1% 0,1%
Noord-Ierland 0,85 37% 11% 3% 1% 0,1%

Frankrijk is dus favoriet voor het kampioenschap, maar de kans dat ze het worden is nog altijd slechts 22%. Zelfs Hongarije, Albanië en Noord-Ierland hebben nog een minieme kans van 0,1% op het kampioenschap. De belangrijkste conclusie lijkt dan ook te zijn: laat je verrassen. Alles kan gebeuren.

28 punten voorsprong? Puur toeval!

In een vol voetbalstadion heeft zojuist het laatste fluitsignaal geklonken. Nadat 22 spelers zich 90 minuten lang in het zweet gewerkt hebben is er een eindstand van 1-0 op het scorebord gekomen. Dit is niet zonder slag of stoot gegaan: zo zag de scheidsrechter een handsbal over het hoofd, waardoor de uitploeg een strafschop ontnomen werd. Ook bleef een elleboogstoot van een speler van de thuisploeg buiten het oog van de arbitrage, en tot overmaat van ramp ketsten ook nog twee schoten van de bezoekers af tegen de lat. De coach van de uitploeg staat dan ook met een nogal zuur gezicht bij de microfoon van de tv-verslaggever. "Het zat ons niet mee vandaag," zegt de oefenmeester, "maar aan het eind van het seizoen staat iedereen op de positie waar hij moet staan."

De gedachte dat geluk en pech elkaar uiteindelijk opheffen is wijdverbreid. De achterliggende gedachte is vaak: een heel seizoen lang vrijwel wekelijks een wedstrijd spelen, dat zal toch wel genoeg zijn om op de meest verdiende positie uit te komen? Maar in de praktijk zijn de verschillen aan het eind van het seizoen vaak nog zo klein dat één verloren wedstrijd het verschil kan maken tussen wel of geen kampioenschap. Het ligt daarom voor de hand dat het toeval nog steeds een rol speelt na 34 wedstrijden. Om erachter te komen hoe groot de invloed van het toeval is, is er maar één goede methode: alle vormen van verschillen in teamkwaliteit opheffen en resultaten enkel en alleen door toeval bepalen.

In de echte wereld bestaan er natuurlijk altijd kwaliteitsverschillen tussen teams, dus zullen we een weg moeten vinden om seizoenen virtueel te simuleren. Dit doen we met behulp van de Poissonverdeling. Deze verdeling wordt gebruikt voor gebeurtenissen die in een bepaald tijdsinterval gemiddeld een bepaald aantal keer voorkomt, maar waarvan onvoorspelbaar is wanneer ze gebeuren. De gebeurtenissen waar we de Poissonverdeling voor gaan gebruiken, zijn (uiteraard) doelpunten. Als we weten hoe vaak een goal gemiddeld voorkomt, kunnen we met behulp van de verdeling uitrekenen hoe groot de kans is dat een bepaald aantal doelpunten valt. Het gemiddelde aantal doelpunten per wedstrijd (voor beide teams) waar we vanuit gaan is gemiddelde aantal doelpunten per wedstrijd in het Eredivisie-seizoen 2014-2015: 3,08. Daarnaast wordt nog rekening gehouden met een thuisvoordeel: thuisploegen maken in de simulatie gemiddeld 14% meer treffers dan gemiddeld, uitploegen 14% minder. Dit levert de volgende kansen op:


Deze kansen gebruiken we om in een competitie met 18 teams alle 306 wedstrijden te simuleren en een eindstand op te maken. Door deze simulatie 5000 keer uit te voeren, kunnen we erachter komen hoe groot de verschillen door puur toeval kunnen worden. Elke simulatie berekenen we het verschil tussen de nummer 1 en de nummer 18 en daarmee komen we tot het volgende histogram:
Het blijkt dat de puntenverschillen flink op kunnen lopen. Gemiddeld is het verschil tussen de nummer 1 en de nummer 18 28 punten - niet bepaald een verschil waarvan de meeste mensen zullen vermoeden dat het door enkel toeval veroorzaakt wordt.

Dit is echter het meest extreme verschil dat per simulatie voorkomt; als we willen weten hoe groot de verschillen gemiddeld worden, is het beter om de standaardafwijking uit te rekenen. De standaardafwijking van de puntenaantallen van alle clubs is per simulatie gemiddeld 8 punten. Als jouw ploeg 8 punten hoger op de ranglijst staat dan een andere ploeg, zul je er vast van overtuigd zijn dat je iets beter doet dan die concurrent. Maar hieruit blijkt dat 8 punten een heel normaal verschil is tussen twee ploegen die exact even goed zijn.

Wat is nou de les die we uit deze analyse moeten trekken? In ieder geval beseffen dat toeval ook op lange termijn nog een significante rol speelt in het voetbal en dat de stand lang niet altijd een volledig getrouwe weergave is van de kwaliteiten van de teams. De nummer 1 zal wel beter zijn dan de nummer 18, maar kleinere verschillen kunnen makkelijk door toeval veroorzaakt worden. Dit is ook een aanmoediging om andere manieren dan de stand te zoeken om erachter te komen wat de werkelijke kwaliteit van ploegen is: bijvoorbeeld kijken hoeveel en hoe grote kansen een ploeg creëert en incasseert. De bal is rond en voetbal is een complexe sport. Laten we juist daarom data in het voetbal omarmen.