Hoe worden uitbijters bepaald in de statistiek?

Hoe worden uitbijters bepaald in de statistiek?

Uitbijters zijn gegevenswaarden die sterk verschillen van de meerderheid van een reeks gegevens. Deze waarden vallen buiten een algemene trend die aanwezig is in de gegevens. Een zorgvuldig onderzoek van een set gegevens om uitbijters te zoeken, levert enige problemen op. Hoewel het gemakkelijk te zien is, mogelijk met behulp van een stamplot, dat sommige waarden verschillen van de rest van de gegevens, hoeveel moet de waarde dan als uitbijter worden beschouwd? We zullen kijken naar een specifieke meting die ons een objectieve norm geeft van wat een uitbijter is.

Interkwartielbereik

Het interkwartielbereik is wat we kunnen gebruiken om te bepalen of een extreme waarde inderdaad een uitbijter is. Het interkwartielbereik is gebaseerd op een deel van de samenvatting met vijf cijfers van een gegevensset, namelijk het eerste kwartiel en het derde kwartiel. De berekening van het interkwartielbereik omvat een enkele rekenkundige bewerking. Het enige dat we moeten doen om het interkwartielbereik te vinden, is het eerste kwartiel van het derde kwartiel af te trekken. Het resulterende verschil vertelt ons hoe verspreid de middelste helft van onze gegevens is.

Uitbijters bepalen

Door het interkwartielbereik (IQR) met 1,5 te vermenigvuldigen, kunnen we bepalen of een bepaalde waarde een uitbijter is. Als we 1,5 x IQR van het eerste kwartiel aftrekken, worden gegevenswaarden die kleiner zijn dan dit aantal als uitschieters beschouwd. Evenzo, als we 1,5 x IQR toevoegen aan het derde kwartiel, worden gegevenswaarden die groter zijn dan dit aantal als uitschieters beschouwd.

Sterke uitbijters

Sommige uitbijters vertonen een extreme afwijking van de rest van een gegevensset. In deze gevallen kunnen we de bovenstaande stappen nemen, alleen het nummer wijzigen waarmee we de IQR vermenigvuldigen en een bepaald type uitbijter definiëren. Als we 3,0 x IQR van het eerste kwartiel aftrekken, wordt elk punt dat onder dit getal ligt een sterke uitbijter genoemd. Op dezelfde manier stelt de toevoeging van 3,0 x IQR aan het derde kwartiel ons in staat om sterke uitbijters te definiëren door te kijken naar punten die groter zijn dan dit aantal.

Zwakke uitschieters

Naast sterke uitbijters is er nog een categorie voor uitbijters. Als een gegevenswaarde een uitbijter is, maar geen sterke uitbijter, zeggen we dat de waarde een zwakke uitbijter is. We zullen naar deze concepten kijken door een paar voorbeelden te verkennen.

Voorbeeld 1

Stel eerst dat we de gegevensset {1, 2, 2, 3, 3, 4, 5, 5, 9} hebben. Het nummer 9 lijkt er zeker op dat het een uitbijter kan zijn. Het is veel groter dan elke andere waarde van de rest van de set. Om objectief te bepalen of 9 een uitbijter is, gebruiken we de bovenstaande methoden. Het eerste kwartiel is 2 en het derde kwartiel is 5, wat betekent dat het interkwartielbereik 3 is. We vermenigvuldigen het interkwartielbereik met 1,5, verkrijgen 4.5 en voegen dit getal toe aan het derde kwartiel. Het resultaat, 9,5, is groter dan al onze gegevenswaarden. Daarom zijn er geen uitbijters.

Voorbeeld 2

Nu kijken we naar dezelfde gegevensset als voorheen, met de uitzondering dat de grootste waarde 10 is in plaats van 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Het eerste kwartiel, derde kwartiel en interkwartielbereik zijn identiek aan voorbeeld 1. Als we 1,5 x IQR = 4,5 toevoegen aan het derde kwartiel, is de som 9,5. Aangezien 10 groter is dan 9,5 wordt het als een uitbijter beschouwd.

Is 10 een sterke of zwakke uitbijter? Hiervoor moeten we kijken naar 3 x IQR = 9. Als we 9 optellen bij het derde kwartiel, krijgen we een som van 14. Aangezien 10 niet groter is dan 14, is het geen sterke uitbijter. We concluderen dus dat 10 een zwakke uitbijter is.

Redenen voor het identificeren van uitbijters

We moeten altijd uitkijken naar uitbijters. Soms worden ze veroorzaakt door een fout. Andere keren wijzen uitbijters op de aanwezigheid van een voorheen onbekend fenomeen. Een andere reden dat we zorgvuldig moeten zoeken naar uitbijters, is vanwege alle beschrijvende statistieken die gevoelig zijn voor uitbijters. Het gemiddelde, de standaarddeviatie en de correlatiecoëfficiënt voor gepaarde gegevens zijn slechts enkele van deze soorten statistieken.