Wiskundeforum

Goedenavond,

Ik twijfel over de correcte wijze om de standaard deviatie te bepalen.
Mijn dataset bestaat uit prijsplannen waarbij elk vliegtuig een prijs per stoel kent en een capaciteit uitgedrukt in het aantal stoelen.
Nu heb ik ervoor gekozen om een gewogen gemiddelde prijs te berekenen, door elke voorkomende prijs te wegen met het aantal vliegtuigstoelen waar die prijs betrekking op heeft.
Vervolgens wil ik graag de standaarddeviatie als spreidingsmaat bepalen om de lezer naast een representatief gemiddelde ook een bruikbare indruk te geven van de spreiding.
Het lijkt mij voor de hand liggen om de wegingsfactor die voor het gewogen gemiddelde is gebruikt ook mee te nemen in het bepalen van de standaarddeviatie. Is dit ook zo, of zijn er (statistische) argumenten om er toch voor te kiezen de standaarddeviatie van de voorkomende prijzen te berekenen ongeacht het aantal stoelen waar de prijs betrekking op heeft?

En mijn tweede vraag is -ervan uitgaande dat de wegingsfactor inderdaad van belang is- hoe ik de standaarddeviatie kan berekenen als ik de wegingsfactor mee wil nemen? Moet ik dan de afstand van elke voorkomende prijs tot de gewogen gemiddelde prijs kwadrateren en dan vermenigvuldigen met de wegingsfactor en uiteindelijk alles delen door de som van de wegingsfactoren? En dan de wortel nemen uiteraard.

Stel we hebben 6 stoelen met prijzen 100, 100, 100, 300, 300 en 600
Dan geldt voor het gemiddelde:
\(\mu = \frac{1}{6}\cdot (100+100+100+300+300+600) = 250\)
In je versie met gewichten zijn er dus deze 6 stoelen: 3 van 100, 2 van 300 en 1 van 600
Dat geeft een gemiddelde
\(\mu = \frac{1}{6}\cdot (3\cdot 100+2\cdot 300+ 1\cdot 600) = 250\)

Voor de standaarddeviatie geldt vergelijkbaar:
\(\sigma = \sqrt{\frac{1}{6}\cdot \left [(100-250)^2 + (100-250)^2 + (100-250)^2 + (300-250)^2 + (300-250)^2 + (600-250)^2 \right] }\)
kan je ook schrijven als
\(\sigma = \sqrt{\frac{1}{6}\cdot \left [3\cdot (100-250)^2 + 2\cdot (300-250)^2 + 1 \cdot (600-250)^2 \right] } = 180.27756...\)
(merk op: dit is wat anders dan de standaarddeviatie van de 3 waarden 100, 300 en 600; de standaardeviatie van deze 3 getallen = 205.48... (en hun gemiddelde = 333.33...))

In formulevorm:
\(\mu = \frac{1}{N}\cdot \displaystyle \sum_{i=1}^N x_i \)
waarbij we in bovenstaand voorbeeld (met N=6 stoelen) sommeren over alle stoelen,
wat hetzelfde is als:
\(\mu = \frac{1}{N}\cdot \displaystyle \sum_{k=1}^n g_k\cdot x_k \)
waarbij we nu sommeren over n=3 soorten stoelen: die van 100, 300 en 600, vermenigvuldigd met een gewicht g van resp. 3, 2 en 1
en waarbij N de som is van alle gewichten:
\(N = \displaystyle \sum_{k=1}^n g_k \)
in ons voorbeeld is N = 3 + 2 + 1 = 6

Evenzo voor de standaarddeviatie:
\(\sigma = \sqrt{\frac{1}{N}\cdot \displaystyle \sum_{i=1}^N (x_i - \mu)^2}\)
is ook te schrijven als
\(\sigma = \sqrt{\frac{1}{N}\cdot \displaystyle \sum_{k=1}^n g_k \cdot (x_k - \mu)^2}\)

Dank je Arie,
Dit is precieze de de bevestiging die ik zocht.

Wiskundeforum

Standaarddeviatie bepalen bij gewogen gemiddelde

Standaarddeviatie bepalen bij gewogen gemiddelde

Re: Standaarddeviatie bepalen bij gewogen gemiddelde

Re: Standaarddeviatie bepalen bij gewogen gemiddelde