Somvariabelen

Mean Sigma

2022-03-07

De formules voor somvariabelen zijn bij de meest intimiderende uit de hele cursus. Ze zijn zo lang dat ze moeilijk van buiten te leren zijn. Toch zal je ze gegarandeerd nodig hebben op het examen. Je moet ze niet alleen foutloos kunnen toepassen, maar dat moet ook nog eens tegen een stevig tempo gebeuren. In deze blogpost proberen we ze beter te begrijpen. We bespreken enkel de relevante formules uit beschrijvende statistiek, maar dezelfde redenering is ook van toepassing op hun tegenhangers uit de inductieve statistiek.

Somvariabelen voor gemiddelde

Voor we overgaan naar het meest uitdagende deel over (co)varianties, bekijken we kort eerst somvariabelen voor gemiddeldes. In de cursus vinden we een korte en een iets minder korte formule:

$\overline{x+y} = \overline x + \overline y$ $\overline{a_0 + \sum_k a_k x_k} = a_0 + \sum_k a_k \overline{x_k}$

Onderliggend zijn deze formules gestoeld op volgende eigenschap van het sommatieteken:

$\displaystyle \sum_i (ax_i + by_i) = a\sum_i x_i + b\sum_i y_i$

Hopelijk is het voor iedereen duidelijk dat de eerste formule gewoon een speciaal geval is van de tweede. Als je de tweede goed begrijpt, moet je de eerste dus niet meer apart van buiten leren. Om de vertaalslag te maken, stel je $a_0=0, a_1=a_2=1, x_1=x, x_2=y$ . Dan krijg je:

$\overline{a_0 + \sum_k a_k x_k} = a_0 + \sum_k a_k \overline x_k$
$\iff \overline{\sum_k a_k x_k} = \sum_k a_k \overline x_k$ ( $a_0=0$ )
$\iff \overline{a_1 x_1 + a_2 x_2} = a_1 \overline x_1 + a_2 \overline x_2$ ( $k \in \{1, 2\}$ )
$\iff \overline{x_1 + x_2} = \overline x_1 + \overline x_2$ ( $a_1=a_2=1$ )
$\iff \overline{x + y} = \overline x + \overline y$ ( $x_1=x, x_2=y$ )

Fun fact: we mogen deze formule niet toepassen op het product van twee toevalsvariabelen. Dankzij de chiastische eigenschap van de covariantie weten we echter wel dat $\overline{x \cdot y} = \overline x \cdot \overline y + s_{xy}$ .

Er zijn tussen deze twee extreme vormen nog tussenliggende versies te bedenken, bijvoorbeeld $\overline{ax + by + c} = a \overline x + b \overline y + c$ . Als er maar één toevalsvariabele $X$ in het spel is, krijgen we $\overline{ax + b} = a \overline x + b$ , wat we al eerder in de cursus gezien hadden bij univariate statistiek. Stiekem is het allemaal één pot nat.

Somvariabelen voor (co)varianties

En de pot nat zal snel nog groter worden. Voor (co)varianties geldt opnieuw dat de formules voor lineaire transformaties en bivariate sommen speciale gevallen zijn van volgende complexe formules:

$s_{a_0 + \sum_k a_k x_k}^2 = \sum_k a_k^2 s_{x_k}^2 + 2 \sum_{k, k', k < k'} a_k a_{k'} s_{x_k x_{k'}}$

$s_{a_0 + \sum_k a_k x_k \;\; b_0 + \sum_{k'} b_{k'} y_{k'}} = \sum_k \sum_{k'} a_k b_{k'} s_{x_k y_{k'}}$

De eerste heeft betrekking op varianties, en de tweede op covarianties. In beide gevallen valt $a_0$ weg want een verschuiving heeft uiteraard geen invloed op de spreiding van de gegevens. Wie een beetje heeft opgelet, weet ook dat elke variantie stiekem ook een covariantie is: $s_x^2 = s_{xx}$ . We kunnen dus $s_{a_0 + \sum_k a_k x_k}^2$ ook schrijven als $s_{a_0 + \sum_k a_k x_k\;\;a_0 + \sum_k a_k x_k}$ . Daar kunnen we dan weer de tweede formule op toepassen. Zo bekomen we een kortere versie van de eerste formule:

$s_{a_0 + \sum_k a_k x_k}^2 = \sum_k \sum_{k'} a_k a_{k'} s_{x_k x_{k'}}$

De luie (of efficiënte, het is maar hoe je het bekijkt) studenten onder ons kunnen de eerste formule dus links laten liggen, en gewoon altijd de tweede gebruiken.

Aangezien we geen twee verschillende uitkomsten kunnen hebben voor $s_{a_0 + \sum_k a_k x_k}^2$ , moet $\sum_k a_k^2 s_{x_k}^2 + 2 \sum_{k, k', k < k'} a_k a_{k'} s_{x_k x_{k'}} = \sum_k \sum_{k'} a_k a_{k'} s_{x_k x_{k'}}$ . Hoe kunnen we dat beter begrijpen? Stel bij wijze van voorbeeld dat $k$ en $k'$ beide van $1$ tot $3$ lopen, dan kunnen we onze berekening in een $3 \times 3$ tabel gieten waarbij elke cel één term uit $\sum_k \sum_{k'} a_k a_{k'} s_{x_k x_{k'}}$ voorstelt:

	$a_1 x_1$	$a_2 x_2$	$a_3 x_3$
$a_1 x_1$	$a_1^2s_{x_1}^2$	$a_2a_1s_{x_2x_1}$	$a_3a_1s_{x_3x_1}$
$a_2 x_2$	$a_1a_2s_{x_1x_2}$	$a_2^2s_{x_2}^2$	$a_3a_2s_{x_3x_2}$
$a_3 x_3$	$a_1a_3s_{x_1x_3}$	$a_2a_3s_{x_2x_3}$	$a_3^2s_{x_3}^2$

Om te beginnen focussen we op de diagonaal:

	$a_1 x_1$	$a_2 x_2$	$a_3 x_3$
$a_1 x_1$	$a_1^2s_{x_1}^2$
$a_2 x_2$		$a_2^2s_{x_2}^2$
$a_3 x_3$			$a_3^2s_{x_3}^2$

In dit geval is $k=k'$ en krijgen we termen van de vorm $a_k^2 s_{x_k}^2$ . Dat verklaart hoe we bij $\sum_k a_k^2 s_{x_k}^2$ komen in de lange formule.

Onze volgende vaststelling is dat de tabel symmetrisch opgebouwd is: rij 1 kolom 2 bevat bijvoorbeeld dezelfde waarde als rij 2 kolom 1: $a_2a_1s_{x_2x_1} = a_1a_2s_{x_1x_2}$ want $s_{xy} = s_{yx}$ . We hoeven de drie termen onder de diagonaal (waar $k>k'$ ) dus niet te berekenen, we kunnen gewoon de termen boven de diagonaal (waar $k<k'$ ) dubbel meetellen in de totale som om tot het juiste resultaat te komen. Dat is de essentie van $2 \sum_{k, k', k < k'} a_k a_{k'} s_{x_k x_{k'}}$ .

	$a_2 x_2$	$a_3 x_3$
$a_1 x_1$	$2a_2a_1s_{x_2x_1}$	$2a_3a_1s_{x_3x_1}$
$a_2 x_2$		$2a_3a_2s_{x_3x_2}$
$a_3 x_3$

Samengevat: door de formule langer en moeilijker te maken besparen we ons wat rekenwerk. Kies dus zelf welke versie van de formule je gebruikt in functie van je voorkeur voor eenvoud t.o.v. snelheid. Op het examen is snelheid zeker belangrijk, maar correctheid ook. Als je een klein rekenfoutje maakt, heb je al snel nul op een oefening. In die zin is de ingebouwde "dubbelcheck" in de korte versie door termen twee keer te berekenen misschien nog niet zo slecht. Los van heel dit verhaal om beter te begrijpen waar de formules vandaan komen, is het sterk aan te raden om voor het examen echt te trainen op het snel toepassen ervan. Oefeningen zoals op blz. 91 moet je elk binnen de halve minuut kunnen oplossen.

Somvariabelen voor standaardafwijkingen

Voor standaardafwijkingen bestaan geen kant en klare formules. Gebruik daarom de formules voor varianties en neem daarna de vierkantswortel. Je zou je wel kunnen afvragen of je specifiek voor bivariate sommen geen eenvoudigere manier kan verzinnen. We weten dat $s_{x+y}^2 = s_x^2 + 2s_{xy} + s_y^2$ . We weten ook dat $(x+y)^2 = x^2 + 2xy + y^2$ . Zou dan $s_{x+y} = s_x + s_y$ ? Dat zou betekenen dat $s_{x+y}^2 = (s_x + s_y)^2 = s_x^2 + 2s_xs_y + s_y^2$ , bijna maar niet helemaal waar we naar op zoek zijn. De formule $s_{x+y} = s_x + s_y$ gaat helaas alleen op als $s_{xy} = s_x s_y$ , dus als $\frac{s_{xy}}{s_x s_y} = r_{xy} = 1$ .

Somvariabelen voor correlaties

Ook voor correlaties geen kant en klare formules. Hier moet je terugvallen op de formule $r_{xy} = \frac{s_{xy}}{\sqrt{s_x^2 s_y^2}}$ en dan de somvariabelen voor de drie (co)varianties uitrekenen.