Somvariabelen

De formules voor somvariabelen zijn bij de meest intimiderende uit de hele cursus. Ze zijn zo lang dat ze moeilijk van buiten te leren zijn. Toch zal je ze gegarandeerd nodig hebben op het examen. Je moet ze niet alleen foutloos kunnen toepassen, maar dat moet ook nog eens tegen een stevig tempo gebeuren. In deze blogpost proberen we ze beter te begrijpen. We bespreken enkel de relevante formules uit beschrijvende statistiek, maar dezelfde redenering is ook van toepassing op hun tegenhangers uit de inductieve statistiek.

Somvariabelen voor gemiddelde

Voor we overgaan naar het meest uitdagende deel over (co)varianties, bekijken we kort eerst somvariabelen voor gemiddeldes. In de cursus vinden we een korte en een iets minder korte formule:

Onderliggend zijn deze formules gestoeld op volgende eigenschap van het sommatieteken:

Hopelijk is het voor iedereen duidelijk dat de eerste formule gewoon een speciaal geval is van de tweede. Als je de tweede goed begrijpt, moet je de eerste dus niet meer apart van buiten leren. Om de vertaalslag te maken, stel je . Dan krijg je:

  • ()
  • ()
  • ()
  • ()

Fun fact: we mogen deze formule niet toepassen op het product van twee toevalsvariabelen. Dankzij de chiastische eigenschap van de covariantie weten we echter wel dat .

Er zijn tussen deze twee extreme vormen nog tussenliggende versies te bedenken, bijvoorbeeld . Als er maar één toevalsvariabele in het spel is, krijgen we , wat we al eerder in de cursus gezien hadden bij univariate statistiek. Stiekem is het allemaal één pot nat.

Somvariabelen voor (co)varianties

En de pot nat zal snel nog groter worden. Voor (co)varianties geldt opnieuw dat de formules voor lineaire transformaties en bivariate sommen speciale gevallen zijn van volgende complexe formules:

De eerste heeft betrekking op varianties, en de tweede op covarianties. In beide gevallen valt weg want een verschuiving heeft uiteraard geen invloed op de spreiding van de gegevens. Wie een beetje heeft opgelet, weet ook dat elke variantie stiekem ook een covariantie is: . We kunnen dus ook schrijven als . Daar kunnen we dan weer de tweede formule op toepassen. Zo bekomen we een kortere versie van de eerste formule:

De luie (of efficiënte, het is maar hoe je het bekijkt) studenten onder ons kunnen de eerste formule dus links laten liggen, en gewoon altijd de tweede gebruiken.

Aangezien we geen twee verschillende uitkomsten kunnen hebben voor , moet . Hoe kunnen we dat beter begrijpen? Stel bij wijze van voorbeeld dat en beide van tot lopen, dan kunnen we onze berekening in een tabel gieten waarbij elke cel één term uit voorstelt:

Om te beginnen focussen we op de diagonaal:

In dit geval is en krijgen we termen van de vorm . Dat verklaart hoe we bij komen in de lange formule.

Onze volgende vaststelling is dat de tabel symmetrisch opgebouwd is: rij 1 kolom 2 bevat bijvoorbeeld dezelfde waarde als rij 2 kolom 1: want . We hoeven de drie termen onder de diagonaal (waar ) dus niet te berekenen, we kunnen gewoon de termen boven de diagonaal (waar ) dubbel meetellen in de totale som om tot het juiste resultaat te komen. Dat is de essentie van .

Samengevat: door de formule langer en moeilijker te maken besparen we ons wat rekenwerk. Kies dus zelf welke versie van de formule je gebruikt in functie van je voorkeur voor eenvoud t.o.v. snelheid. Op het examen is snelheid zeker belangrijk, maar correctheid ook. Als je een klein rekenfoutje maakt, heb je al snel nul op een oefening. In die zin is de ingebouwde "dubbelcheck" in de korte versie door termen twee keer te berekenen misschien nog niet zo slecht. Los van heel dit verhaal om beter te begrijpen waar de formules vandaan komen, is het sterk aan te raden om voor het examen echt te trainen op het snel toepassen ervan. Oefeningen zoals op blz. 91 moet je elk binnen de halve minuut kunnen oplossen.

Somvariabelen voor standaardafwijkingen

Voor standaardafwijkingen bestaan geen kant en klare formules. Gebruik daarom de formules voor varianties en neem daarna de vierkantswortel. Je zou je wel kunnen afvragen of je specifiek voor bivariate sommen geen eenvoudigere manier kan verzinnen. We weten dat . We weten ook dat . Zou dan ? Dat zou betekenen dat , bijna maar niet helemaal waar we naar op zoek zijn. De formule gaat helaas alleen op als , dus als .

Somvariabelen voor correlaties

Ook voor correlaties geen kant en klare formules. Hier moet je terugvallen op de formule en dan de somvariabelen voor de drie (co)varianties uitrekenen.