In de wereld van statistiek en kansrekening is de normale verdeling een veelgehoord begrip. In bijna elke wetenschap of vakgebieden waar statistiek een onderdeel is, komt je de normale verdeling tegen. In deze blog vertellen we je op een eenvoudige manier wat de normale verdeling is, wat de standaard normale verdeling inhoudt en geven we drie voorbeelden.
De normale verdeling, soms ook wel de ‘Bell curve’ genoemd, is een manier om te beschrijven hoe gegevens zich verspreiden rond het gemiddelde. Stel je voor dat je de lengte van een groot aantal mensen meet. Niet iedereen heeft dezelfde lengte, maar de meeste mensen zullen ergens rond het gemiddelde zitten. Als je een grafiek maakt van deze lengtes, krijg je een curve met een top bij het gemiddelde. Ook zie je hierin de vorm van een bel terug. Dit noemen we de normale verdeling.
Bij de normale verdeling is het belangrijk om te weten dat de grafiek symmetrisch is met als middelpunt het gemiddelde, ook wel aangegeven met de Griekse letter m. Dit betekent dat er evenveel data of metingen aan de linkerkant als aan de rechterkant van het gemiddelde zijn. De verdeling heeft een klokvormige curve die aan beide uiteinden afvlakt.
De standaard, ook wel de z-verdeling, is een speciale vorm van de normale verdeling. Bij deze verdeling is het gemiddelde gelijk aan 0 en de standaardafwijking gelijk aan 1. Iedere normale verdeling kan omgezet worden in een standaard normale verdeling. Dit doe je door het toekennen van z-scores. De metingen uit de normale verdeling zet je om in z-scores. Dit maakt het uiteindelijk makkelijker om metingen te vergelijken of om kansberekeningen te maken.
Om de normale verdeling beter uit te leggen, gebruiken we een aantal voorbeelden:
Stel je voor dat je de lengte van 1000 volwassen vrouwen meet. Je ontdekt waarschijnlijk dat de meeste vrouwen een lengte hebben die dicht bij het gemiddelde ligt, zo rond de 170 cm. Slechts een klein aantal vrouwen is veel langer of korter dan het gemiddelde. Als je een grafiek zou maken van al deze lengtes, zou je een klokvormige curve krijgen met de meeste gegevenspunten rond de 170 cm. Dit is een voorbeeld van een normale verdeling.
In dit voorbeeld kunnen we het gemiddelde (bijvoorbeeld 170 cm) en de standaardafwijking (bijvoorbeeld 10 cm) gebruiken om te berekenen hoeveel procent van de vrouwen binnen een bepaald bereik valt. Volgens de 68-95-99.7 regel kunnen we zeggen dat ongeveer 68% van de vrouwen een lengte heeft tussen 160 cm en 180 cm. Dit is namelijk het gemiddelde plus één standaardafwijking van 10 cm onder en boven het gemiddelde.
Lees meer: percentages van de normale verdelingJe analyseert de examenresultaten van een groot aantal studenten. In een normaal verdeelde dataset scores haalt meerderheid van de studenten eens score dichtbij het gemiddelde, in dit geval een 7. Slechts een klein aantal studenten scoort uitzonderlijk hoog of laag. Als de resultaten van dit examen een standaardafwijking van 1 hebben, hebben de meeste studenten (ongeveer 68%) een score hebben tussen de 6 en 8. Een klein deel, zo’n 5% van de studenten, heeft een score onder de 5 of boven de 9.
Bij een marathon lopen de meeste hardlopers met een snelheid van ongeveer 10 kilometer per uur. We kennen allemaal die topatleten die iets meer dan twee uur nodig hebben. Een aantal lopers zijn dus veel sneller of juist langzamer dan de gemiddelde loper.
Als je de snelheden van alle hardlopers in een grafiek zou zetten, krijg je een klokvormige curve, waarbij de meeste hardlopers zich rond de 10 km/u bevinden. Met een standaardafwijking van 1,8 km/u, loopt dus 32% van de hardlopers onder de 8,8 km/u of boven de 11,2 km/u.
In veel verschillende situaties komt de normale verdeling voor. Wat je ook meet, je zal vaak merken dat de data normaal verdeeld is. Dit maakt het gemakkelijker om voorspellingen te doen en om statistische tests uit te voeren.
Daarnaast maakt de standaard normale verdeling door het standaardiseren van de data het eenvoudig om verschillende datasets met elkaar te vergelijken. Met de standaard normale verdeling kun je gemakkelijker iets zeggen over hoe ver een bepaald datapunt van het gemiddelde ligt in verhouding tot andere datasets.
Aan de slag met lean six sigma? Volg een green belt training!De 14 management principes van Toyota vormen de basis van het Toyota Production System (TPS), waaruit lean is ontstaan. Lees hier meer!
Leer hoe je berekeningen maakt die je helpen om processen te begrijpen. Bijvoorbeeld de doorlooptijd en de proces efficiency.
Het VUCA model wordt toegepast in verschillende sectoren. Het is een tool die je helpt te bepalen wanneer je welke acties onderneemt.