ANOVA: variantie analyse

ANOVA: wat is een variantie analyse?

ANOVA staat voor: ANalysis Of VAriance. Het is een statistische methode die je gebruikt als je de verschillen tussen de gemiddelden van drie (of meer) groepen wil analyseren. Dit kan handig zijn als je met lean six sigma aan de slag gaat met het verbeteren van processen.

Een voorbeeld: stel, de personeelsadministratie stelt arbeidsovereenkomsten op voor vijf verschillende vestigingen van het bedrijf. Uit de metingen blijkt dat de gemiddelde doorlooptijd hiervan per locatie erg verschilt. Een ANOVA kijkt dan of er sprake is van toeval, of dat er echt iets aan de hand is. Met de DMAIC-aanpak kun je dan het proces voor die specifieke vestiging verder analyseren en verbeteren.

In deze blog lees je:

Hoe een ANOVA (variantie analyse) werkt.
Hoe je een ANOVA uitvoert.
Waar je op moet letten bij het doen van een ANOVA.

Hoe werkt een ANOVA (variantie analyse)?

Een ANOVA bestaat in hoofdlijnen uit drie stappen.

Je vergelijkt gemiddelden. De eerste stap is het berekenen en vergelijken van de gemiddelden van alle groepen. Deze groepen zijn bijvoorbeeld verschillende afdelingen (A, B, C en D) waar de klanttevredenheid gemeten wordt. We zetten deze gemiddelden eerst op een rij. Als we zien dat de gemiddelde klanttevredenheid per afdeling heel erg verschillend is, is dat interessant genoeg om ons af te vragen wat hier aan de hand is.
Je kijkt naar variatie binnen de groep. Per afdeling kijk je dan of er sprake is van variatie binnen de groep. Je kijkt dan per afdeling (dus voor A, B, C en D alle vier apart) of er heel veel variatie is in de klanttevredenheid. Zijn er klanten die een dikke onvoldoende geven en tegelijkertijd klanten die zeer tevreden is? Dan is er ook binnen de groep veel variatie. Ligt alles heel dichtbij elkaar, dan is er veel minder variatie.
Je bepaalt de verhouding tussen en binnen de groep. Nu wordt het een beetje statistisch en ingewikkeld misschien, maar het is belangrijk om de verhoudingen te berekenen. Dit noem je de F-waarde. Bij een lage F-waarde is er sprake van toeval, maar bij een hoge F-waarde is er wel degelijk iets aan de hand waar je bij het verbeteren van het proces iets mee moet.

Processen analyseren en verbeteren? Volg dan een green belt!

Hoe doe je een ANOVA?

Als je een ANOVA wil doen in je project, dan begin je met het formuleren van twee hypothesen. Dit zijn stellingen die je wil bewijzen. Je hebt altijd een nul-hypothese (“er is geen verschil”) en een alternatieve hypothese (“er is wél verschil”).

Stel je vergelijkt de klanttevredenheid tussen de afdelingen, dan is je nul-hypothese dat er geen verschil is tussen de klanttevredenheid. Je alternatieve hypothese is dan dat je verwacht dat er minstens één afdeling is waar de klanttevredenheid afwijkt.

De volgende stap is het verzamelen van data. Zorg dat je voor alle afdelingen de patiënttevredenheid meet en de uitkomsten verzamelt.

Je neemt een steekproef van bijvoorbeeld 150 metingen per afdeling. Patiënten kunnen alleen hele cijfers geven op een schaal van 1-10. Dan zet je vervolgens de 150 uitkomsten per afdelingen op een rij, van het laagste cijfer tot het hoogste cijfer.

Vervolgens kun je het gemiddelde berekenen per afdeling én het gemiddelde van alle afdelingen samen.

Bijvoorbeeld:

Afdeling A: 7.4
Afdeling B: 7.8
Afdeling C: 6.0
Afdeling D: 6.8
Algemeen gemiddelde: 7.0

Weten wat wij met statistiek doen in een training? Neem contact op!

Tijd voor statistiek!

Nu komen er een aantal formules, maar laat je daar niet door afschrikken! De ANOVA klinkt ingewikkelder dan het is en bij het woord ‘variantie analyse’ denk je misschien: wat??

Maar je analyseert dus eigenlijk simpelweg gewoon de onderlinge variantie.

Eerst kijken we in hoeverre de afdelingen van elkaar verschillen. Dat noemen we ook wel de tussen-groepen variatie (SSB). Dit bereken je voor iedere afdeling (dus in ons voorbeeld vier keer) en de formule hiervoor is als volgt:

Afd. A = n * (gemiddelde groep – totaal gemiddelde)² = 4 * (7.4 – 7.0)² = 0.64
Afd. B = n * (gemiddelde groep – totaal gemiddelde)² = 4 * (7.8 – 7.0)² = 2.56
Afd. C = n * (gemiddelde groep – totaal gemiddelde)² = 4 * (6.0 – 7.0)² = 4
Afd. D = n * (gemiddelde groep – totaal gemiddelde)² = 4 * (6.8 – 7.0)² = 0.16
SSB = 0.64 + 2.56 + 4 + 0.16 = 7.36

Daarna kijken we in hoeverre de patiënttevredenheid binnen iedere afdeling verschilt. Dit is de binnen-groepen variatie (SSW). Deze berekenen we op de volgende manier:

SOM ((van iedere individuele score – totaal gemiddelde)²)

Omdat we per afdeling te maken hebben met 150 metingen (en dus 600 metingen in totaal hebben gedaan) schrijven we niet alles uit. Maar je trekt (in Excel) dus – per afdeling – van iedere individuele score het gemiddelde af en deze uitkomst kwadrateer je. De som van al deze ‘kwadraatjes’ tel je voor iedere afdeling op. En vervolgens bereken je de SSW:

SSW = Afd. A + Afd. B + Afd. C + Afd. D = 11.8 (bijvoorbeeld)

Daarna bereken je de F-waarde. In deze formules gebruiken we de letter ‘k’: het aantal groepen (in dit geval afdelingen) en de letter ‘n’: de grootte van de steekproef (in dit geval het aantal patiënten dat de enquete heeft ingevuld). We berekenen de gemiddelde variatie tussen groepen (MSB) en binnen groepen (MSW) met de volgende formules:

MSB = SSB / (k – 1) = 7.36 / 3 = 2.45
MSW = SSW / (n – k) = 11.8 / (600 – 4) = 0.02
F-waarde = M

Tot slot toetsen we de F-waarde. Vergelijk de berekende F-waarde met de kritische F-waarde uit de F-verdelingstabel (deze kun je via Google gemakkelijk vinden). Dit doe je op basis van het gekozen significantieniveau (vaak is dit 0.05) en de vrijheidsgraden (df tussen = k – 1 = 3 en df binnen = n – k = 596). Als de berekende F-waarde groter is dan de kritische F-waarde, verwerp dan de nulhypothese! Oftewel: we kunnen concluderen dat er een significant verschil is in de gemiddelde patiënttevredenheid tussen de afdelingen. Zo niet, dan accepteren we de nulhypothese dat er geen verschil is.

Geïnteresseerd geraakt in een green belt? Klik hier!

Alle artikelen bekijken