Drie formules voor het gemiddelde

In de vorige blogpost hebben we de klassieke formule voor het steekproefgemiddelde ontleed. De prof merkt in de cursus casually op dat je dit gemiddelde op nog twee andere manieren kan berekenen. In totaal zijn er dus drie manieren.

Voor dezelfde steekproef geven al deze formules hetzelfde resultaat. Het moet dus mogelijk zijn om wiskundig uit één versie de twee andere versies af te leiden. Dat geeft volgende zes stellingen:

Zet de weblecture even stil Probeer voor je verder leest zelf deze stellingen te bewijzen.


Bewijs voor

  • (gegeven)
  • (definitie )
  • (constante buitenbrengen)

In mensentaal: omdat de proportie de deling door impliciet al bevat, staat die in formule niet meer in. (Anders zou je delen door .) In zit nog niet verwerkt, dus daar moet je de deling wel expliciet opnemen in de formule. In plaats van elke term apart te delen, tel je tot slot eerst alles op en doe je dan eenmalig de deling (distributiviteit).

Aangezien gelijkheid symmetrisch is (dus ) kunnen we aantonen dat door het bewijs van achter naar voor te lezen. We hebben dus eigenlijk bewezen.

Omdat en equivalent zijn, moet je van de overige vier stellingen nog maar twee bewijzen. Als je bijvoorbeeld kan bewijzen, kan je met één extra stap direct bewijzen.

Bewijs voor

Dit is al iets moeilijker omdat we geen wiskundige formule hebben om voor te stellen. Hier moet je dus op je intuitie rekenen. Een voorbeeld kan daarbij helpen. Stel dat we een steekproef voor hebben met waardes . Als we hier formule op loslaten krijgen we

Om formule te testen moeten we eerst een frequentietabel opstellen.

1 1
2 2
3 1

Dan krijgen we:

Zo zie je onmiddelijk dat de twee formules exact hetzelfde zeggen, maar op een subtiel verschillende manier. telt gewoon alle waardes bij elkaar op ongeacht de aanwezigheid van duplicaten, terwijl enkel naar de unieke waarden kijkt en dan via vermenigvuldiging aangeeft hoeveel keer elk getal voorkomt.

Normaal gesproken is één geslaagd voorbeeld niet genoeg om iets wiskundig te bewijzen. Dichter dan dit gaan we in dit geval helaas niet geraken met de beperkte notatiewijze die we in de cursus hanteren. Hopelijk is het toch intuitief duidelijk dat de twee berekeningen in alle gevallen equivalent zijn. Besluit: want je kan ook dit bewijs omgekeerd toepassen.

Speciaal geval: geen duplicaten

Wie wiskundig toch op zijn honger blijft zitten, kan een speciaal geval van de stelling proberen te bewijzen. Stel dat we een steekproef hebben zonder duplicaten. Dan is en (waarom?). Hiermee kunnen we wel aan de slag.

  • (gegeven)
  • ()
  • (hernoem index)
  • (neutraal element voor vermenigvuldiging)
  • (gegeven)

Het hernoemen van een index is wiskundig gezien altijd toegestaan (zolang de nieuwe letter nog geen eerdere invulling had) aangezien het niets verandert aan de inhoudelijke betekenis van de formule. In onze cursus hebben we wel specifieke conventies vastgelegd voor het gebruik van en , dus pas daar mee op.

Aangezien we nu weten dat en hebben we impliciet alle zes stellingen bewezen.

Frequentie anders bekenen

Veel studenten kennen formule al lang maar zijn nog niet vertrouwd met formule op het moment dat ze aan statistiek beginnen. De kans is echter groot dat ze die formule zonder het goed te beseffen al verschillende keren hebben toegepast op een subtiel andere manier.

Neem een voorbeeld waarbij de examenscores van een eerstejaarsstudent voorstellen.

Vak Stp Punten (op 20)
Functieleer 6 10
Sociale psychologie 1 6 12
Statistiek 1 8 8
Methoden 1 4 16
Sociologie 4 14

Als we de studiepunten even negeren, kunnen we het gemiddelde heel eenvoudig berekenen:

We kunnen bijvoorbeeld ook formule gebruiken, maar dat gaat uiteraard exact hetzelfde geven. Er zijn zelfs geen duplicaten, dus de berekening zal identiek zijn. Je zou echter kunnen beargumenteren dat dit gemiddelde niet representatief is, omdat het hetzelfde gewicht geeft aan kleine als aan grote vakken.

We moeten dus het gewogen gemiddelde berekenen waarbij we rekening houden met de studiepunten. Dit is trouwens ook de berekening die achterliggend in het studievoortgangsdossier gebruikt wordt om tot de totaalscore te komen. In de cursus staat dit concept niet, maar iedereen die ooit zelf het eindresultaat op zijn of haar rapport heeft nagerekend in het middelbaar weet hoe dit moet:

Dubbelcheck: is dit een logische uitkomst? Ja, het is in de buurt van de die we eerder hadden, maar iets lager omdat onze student relatief slechter scoorde op de grotere vakken.

Vermoedelijk doet deze werkwijze je denken aan formule , maar we hebben net gezegd dat die formule gewoon als resultaat zou geven. Wat is hier aan de hand? In drukken we gewicht uit in termen van frequentie, maar je kan gewicht dus ook op andere manieren uitdrukken (zoals hier in aantal studiepunten). Om formule te kunnen toepassen, moeten we onze frequenties kunstmatig bijstellen door een score meerdere keren op te nemen in onze steekproef. Zo krijgen we . Probeer zelf eens formule hierop toe te passen, dan zal je zien dat we inderdaad opnieuw uitkomen.

Kort samengevat: formule berekent het gewogen gemiddelde waarbij het gewicht van een waarde gelijk is aan de overeenkomstige frequentie.

Conclusie

Zelfs achter de simpelste formules in de cursus zit een heel verhaal. Nu is het aan jou om de verhalen achter de andere concepten uit de cursus te achterhalen.

Fun fact

Als je een steekproef partitioneert, daarna van elk deel het gemiddelde neemt en tot slot het gewogen gemiddelde neemt van die gemiddeldes, kom je uit op het het originele gemiddelde van de hele steekproef. Kan je dat bewijzen?

Voorbeeld:

Deze techniek kan je bijvoorbeeld gebruiken als je het gemiddelde van een rij getallen moet berekenen, en er stromen altijd nieuwe getallen binnen aan het einde van die rij. In plaats van dan alle getallen vanaf het begin terug op te tellen en te delen door de nieuwe , kan je verder rekenen vanaf het vorige berekende gemiddelde . Voor één nieuw element krijg je dan volgende algemene formule:

Hoe zou de formule er uit zien als er getallen in één keer binnen stromen i.p.v. slechts één?