Voorbeeldexamen - oef. 19

Mean Sigma

2023-01-28

Achteraan de cursus Statistiek, deel 1 staat een voorbeeldexamen. Ik was onlangs vraag 19 daarvan aan het bekijken, en ik geraakte helemaal in de war. Ze vragen naar de gekwadrateerde standaardfout ( $s_{x.y}^2$ ). Dat is op zich niet zo vreemd, tot bleek dat de modeloplossing dit niet met de formules van optimale voorspelling maar met de regel van Steiner aanpakt. Nog straffer: de uitkomst $s_{x.y}^2 = 125$ was groter dan de gegeven variantie $s_x^2 = 10^2 = 100$ . Hier is duidelijk iets vreemd aan de hand, waar ik het fijne van wou weten.

Mijn eerste plan was om de modeloplossing te negeren en op mijn eigen manier met optimale voorspelling tot een oplossing te komen. Daarbij gebeurde iets vreemd...

Poging 1

gegeven
- $X$ : IQ
- $\overline x = 125$
- $s_x = 10$
- $x^{est} = 130$
gevraagd
- $s_{x.y}^2$
oplossing
- - $= \overline{(x^{est} - \overline x)^2}$
  - $= \overline{(130 - 125)^2}$
  - $= \overline{25}$
  - $= 25$
- $s_x^2 = s_{x.y}^2 + s_{verkl}^2$
- $\iff s_{x.y}^2 = s_x^2 - s_{verkl}^2$
- $\iff s_{x.y}^2 = 100 - 25 = 75$

Persoonlijk vond ik deze oplossing logischer klinken dan de modeloplossing. De uitkomst is kleiner dan de variantie zoals verwacht, en de oplossingsmethode is niet zo ver gezocht.

Het is natuurlijk een beetje vreemd dat we hier een variabele $Y$ is het leven moeten roepen waarop we ons zogezegd baseren om $X^{est} = f(Y)$ te voorspellen terwijl we die uiteindelijk helemaal niet gebruiken. De voorspelling is namelijk een constante ( $130$ ), wat de waarde van die erbij gefantaseerde $Y$ ook zou zijn. In de formules komen we ook niet echt in de problemen, want we hebben inderdaad nergens een waarde gerelateerd aan $Y$ nodig.

Op dit moment hebben we twee verschillende oplossingen waar iets voor te zeggen valt: Steiner vs optimale voorspelling. We moeten de zaken dus nog wat verder uitpluizen.

Poging 2

gegeven
- $X$ : IQ
- $\overline x = 125$
- $s_x = 10$
- $x^{est} = 130$
gevraagd
- $s_{x.y}^2$
oplossing
- $s_x^2 = \overline{x^2} - \overline{x}^2$
- $\iff \overline{x^2} = s_x^2 + \overline{x}^2$
- $\iff \overline{x^2} = 100 + 125^2$
- $\iff \overline{x^2} = 15725$
- - $= \overline{(x^{est} - x)^2}$
  - $= \overline{(130 - x)^2}$
  - $= \overline{130^2 - 260x + x^2}$
  - $= 130^2 - 260\overline x + \overline{x^2}$
  - $= 130^2 - 260 \cdot 125 + 15725$
  - $= 125$

Color me surprised... Als $125$ inderdaad het juiste antwoord zou zijn, wat is er dan mis met mijn eerste poging? Tijd om dieper te duiken.

Poging 1 bis

Werk met een concrete dataset

Als ik in de war ben, probeer ik het wat concreter te maken. In dit geval zou het handig zijn als we een paar concrete $X$ waarden hadden. Daarmee kunnen we in detail alle berekeningen volgen. Stel voor het gemak dat $n=2$ , dan hebben we $x_1$ en $x_2$ nodig. Hoe kunnen we de waardes daarvan zo kiezen dat we het juiste gemiddelde en de juiste standaarddeviatie uitkomen?

We beginnen met de voorwaarde van het gemiddelde:

$\dfrac{x_1 + x_2}{2} = 125$
$\iff x_1 + x_2 = 250$
$\iff x_1 = 250 - x_2$

We weten ook van hierboven dat $\overline{x^2} = 15725$ :

$\dfrac{x_1^2 + x_2^2}{2} = 15725$
$\iff x_1^2 + x_2^2 = 31450$
$\iff (250-x_2)^2 + x_2^2 = 31450$
$\iff 2x_x^2 - 500x_2 + 31050 = 0$
$\iff \ldots$ (uitwerken met discriminant)
$\iff x_2 = 115$ of $x_2 = 135$
dan is $x_1 = 250-115 = 135$ of $x_1 = 250-135 = 115$

Conclusie: dataset $X: 115, 135$ heeft de eigenschappen waar we naar op zoek zijn: $\overline x = 125$ en $s_x = 10$ .

Pas klassieke OLV toe

Stel dat we om te beginnen die constante voorspelling van $130$ even vergeten en kijken hoe we los daarvan verder zouden gaan met deze gegevens. Ik heb hier deze keer wel een paar concrete $Y$ -waarden bij verzonnen om het concreter te maken.

$X$	$Y$
$115$	$1$
$135$	$2$

Optimale lineaire voorspelling werkt voor twee punten altijd perfect: je kan er altijd een rechte lijn door trekken. We berekenen eerst de vergelijking van deze lijn met meetkundige formules:

$x = b_0 + b_1y$
$b_1 = \dfrac{x_2 - x_1}{y_2 - y_1} = 20$ (rico)
$115 = b_0 + 20 \cdot 1 \iff b_0 = 95$
$x = 95 + 20y$

Je kan dit ook met de klassieke formules voor $b_0$ en $b_1$ doen, zelfde resultaat.

Voor $y=1$ zal deze formule dus $x^{est}=115$ voorspellen, en voor $y=2$ wordt $x^{est}=135$ .

Hoe zien onze varianties er op basis van deze voorspelling uit?

$s_x^2 = 100$
- $= \overline{(x^{est} - \overline x)^2}$
- $= \dfrac{(115 - 125)^2 + (135 - 125)^2}{2}$
- $= 100$
- $= \overline{(x^{est} - x)^2}$
- $= \dfrac{(115 - 115)^2 + (135 - 135)^2}{2}$
- $= 0$
$100 = 100 + 0$

So far so good, niets onverwacht.

Pas OLV zonder predictoren toe

Het speciale aan deze voorbeeldexamenvraag is dat we een constante voorspelling hebben. Onze leek kiest voor $130$ maar als hij een beetje slimmer was geweest, zou hij in de plaats het gemiddelde ( $125$ ) gekozen hebben. Dat is ook wat optimale lineaire voorspelling voorschrijft als er geen predictoren zijn (geen $Y$ in dit geval). Laten we dus het geval $x^{est} = 125$ onder de loep nemen.

$s_x^2 = 100$
- $= \overline{(x^{est} - \overline x)^2}$
- $= \dfrac{(125 - 125)^2 + (125 - 125)^2}{2}$
- $= 0$
- $= \overline{(x^{est} - x)^2}$
- $= \dfrac{(125 - 115)^2 + (125 - 135)^2}{2}$
- $= 100$
$100 = 0 + 100$

Tot hier klinkt alles nog logisch. De formules komen mooi uit. De variantie wordt nu helemaal opgesoupeerd door de foutenvariantie in plaats van door de verklaarde variantie. Niet verwonderlijk als je je voorspelling baseert op... niets.

Gebruik constante voorspelling 130

Wat is er dan zo speciaal aan deze voorbeeldexamenvraag dat deze formules hier niet goed werken? Laten we nog een laatste keer alle berekeningen doen op basis van $x_1 = 115, x_2 = 135$ en $x^{est} = 130$ .

$s_x^2 = 100$
- $= \overline{(x^{est} - \overline x)^2}$
- $= \dfrac{(130 - 125)^2 + (130 - 125)^2}{2}$
- $= 25$
- $= \overline{(x^{est} - x)^2}$
- $= \dfrac{(130 - 115)^2 + (130 - 135)^2}{2}$
- $= 125$
$100 \neq 25 + 125$

Aha! Onze berekening waren dus wel juist. We hebben enkel de fout gemaakt om er van uit te gaan dat in deze context $s_x^2 = s_{x.y}^2 + s_{verkl}^2$ . Uit bovenstaand avontuur leren we dat deze formule enkel bruikbaar is als de voorspelde waarde direct uit OLV volgt. Voor andere (niet optimale) voorspellingen geldt deze formule niet. Daarom ging Poging 1 de mist in. Mystery solved!

Conclusie

De modeloplossing was correct, al is het gebruik van Steiner om tot een oplossing te komen optioneel. Zoals je kan zien in Poging 2 hierboven kom je zonder Steiner ook op de juiste uitkomst. Let enkel op dat je geen formules uit optimale lineaire voorspelling toepast als de voorspelling wel lineair maar niet optimaal is.

Los van deze specifieke examenvraag toont dit relaas opnieuw aan hoe je zelf op onderzoek kan gaan als je bij statistiek - of wiskunde in het algemeen - op een tegenstelling botst. Geef niet te snel op, probeer het probleem vanuit verschillende perspectieven te benaderen, en maak het zo concreet mogelijk.

Absolute waarde als afstand

Mean Sigma

2023-01-15

Wie de vereiste voorkennis onder de knie heeft, weet wat het effect is van de absolute waarde op een variabele $x \in \mathbb R$ :

$|x| = \begin{cases} x &\mid x \geq 0\\ -x &\mid x < 0 \end{cases}$

Zo geldt altijd dat $|x| \geq 0$ . Hoewel de definitie op zich niet moeilijk is, gooit een slechtgeplaatste absolute waarde in een opgave soms toch roet in het eten bij de uitwerking. In het slechtste geval moet je de twee gevallen ( $x \geq 0$ en $x < 0$ ) apart uitwerken en daarna de oplossingen opnieuw samenvoegen.

Ook bij statistiek komen we absolute waardes tegen. Ze komen vaak voor in volgende vorm:

$|x - c| \leq d$

Doorgaans zijn $c \in \mathbb R$ en $d \in \mathbb R^+$ gegeven en moet je op zoek naar mogelijke waarden voor $x$ . Deze vorm heeft een intuitieve interpretatie:

De afstand op de getallenas van $x$ tot $c$ moet kleiner dan of gelijk aan $d$ zijn.

Opgelet (1): Er staat een minteken in de formule, maar we werken hier gewoon met $c$ (zonder minteken).

Opgelet (2): Als we een gelijkaardige opgave tegenkomen met een plus, kunnen we deze interpretatie helaas niet zomaar toepassen. We kunnen uitdrukkingen van de vorm $|x + c| \leq d$ wel omvormen tot $|x - (-c)| \leq d$ .

Achtergrondinfo: in de meetkunde gebruiken we dezelfde verticale strepen om lengtes en afstanden aan te duiden in twee of meer dimensies.

Voorbeeld

Stel dat we een vraag met $|x - 2| \leq 5$ tegenkomen. Dus is $c=2$ en $d=5$ . In eerste instantie gaan we het ongelijkheidsteken even wegdenken en vervangen door een gelijkheidsteken. Dan krijgen we $|x - 2| = 5$ . Welke getallen bevinden zich dan exact op afstand $5$ van $2$ ? Als we de ondergrens zoeken, komen we uit op $2-5=-3$ . Gelijkaardig komen we als bovengrens uit op $2+5=7$ .

De vraag was echter niet de afstand gelijk aan $5$ , maar kleiner dan $5$ . Alle getallen binnen de twee grenzen tellen dus ook mee: $|x-2| \leq 5 \iff -3 \leq x \leq 7 \iff x \in [3, 7]$ .

Omgekeerd kunnen we aantonen dat $|x-2| > 5 \iff x \in \mathopen]-\infty, -3\mathclose[ \cup \mathopen]7, +\infty\mathclose[$ Dit is het complement van de vorige oplossingsverzameling. In de context van kansen kan je in plaats daarvan ook het complement van de kans zelf nemen:

$P(|X-2| > 5)=0.2 \iff P(|X-2| \leq 5)=0.8$

Monty Hall

Mean Sigma

2023-01-11

Begon jij je ook af te vragen wat de professor gedronken had toen je vraag 9 van (regulier) practicum 6 zag? Een vraag over deuren en geiten?! Om nog maar te zwijgen van de absurd on-intuitieve oplossing. Ik kan jullie gerust stellen: de prof heeft dit niet zelf verzonnen. De vraag is namelijk een variant op het klassieke Monty Hall probleem. Als je hier naar zoekt op Google of YouTube, vind je heel veel informatie. Kijk o.a. eens naar deze video:

Notatie: kleine en grote letters

Mean Sigma

2023-01-10

De prof hecht enorm veel belang aan de correcte notatiewijze. In deze blogpost ligt de focus op het verschil tussen kleine en grote letters zoals $x$ en $X$ , $s_x$ en $S_X$ of $\overline x$ en $\overline X$ .

Kort samengevat worden verzamelingen ( $A, B, \ldots$ ) en toevalsvariabelen ( $X, Y, \ldots)$ met hoofdletters geschreven, terwijl observaties ( $x_i$ ), waarden ( $y_j$ ) en statistische maten met kleine letters geschreven worden. Populatieparameters zoals $\sigma_X$ worden met kleine Griekse letters geschreven.

Ter herinnering: een statistische maat is een berekening die je toepast op een steekproef waarbij je als uitkomst één getal krijgt. De steekproefvariantie $s_x^2$ en de populatiecorrelatie $\rho_{XY}$ zijn beide statistische maten. Merk op dat het subscript bij beschrijvende statistiek in kleine letters gedrukt staat, en bij inductieve statistiek in hoofdletters.

Uitzondering: de steekproefmediaan ( $Me_x$ ) en de populatiemediaan ( $Me_X^*$ ) schrijven we steeds met een hoofdletter.

Toevalsvariabelen anderzijds zijn niet één getal. Ze hebben een verdelingsfunctie, en daardoor dus ook o.a. een gemiddelde en een spreiding. Ze duiken in tegenstelling tot statistische maten soms op in kansuitspraken zoals $P(X=0)$ .

Behalve voor statistische maten bij beschrijvende statistiek (zoals hierboven beschreven) worden toevalsvariabelen in subscripts steeds met een hoofdletter geschreven. Voorbeelden: $Z_X(x_i), freq_X(x_j), F_Y(y_{j'}), \zeta_X(x), \pi_{X,Y}(x,y), \varphi_Y(y), \Phi_Y(y)$ .

Statistieken en schatters zijn beide ook toevalsvariabelen, dus die schrijven we ook met een hoofdletter. Zo is $\overline X$ een schatter voor $\mu_X$ en $S'_X$ een schatter voor $\sigma_X$ .

Uitzondering: de schatter $r_{XY}$ voor de populatiecorrelatie $\rho_{XY}$ schrijven we met een kleine letter. Door de hoofdletters in het subscript kan je toch nog het verschil zien tussen de schatter en de overeenkomstige statistische maat: de steefproefcorrelatie $r_{xy}$ .

Merk op dat we de vertaalslag van statistische maat naar schatter (bv. $\overline x \to \overline X$ ) enkel bij beschrijvende statistiek maken. Bij inductieve statistiek werken we reeds met de populatie i.p.v. een steefproef, dus hebben we geen schatters nodig. Daarom zie je nooit Griekse hoofdletters zoals Mu ( $\Mu$ ), Rho ( $\Rho$ ) of Sigma ( $\Sigma$ ) opduiken als toevalsvariabelen.

Bivariate statistiek met TI-30X

Mean Sigma

2022-12-26

Univariaat

Nogal wat studenten hebben moeite met het berekenen van statistieken uit bivariate gegevens met hun rekentoestel. Univariate gegevens lukken meestel wel goed, omdat je daar ook de frequentie kan meegeven. Stel dat je volgende gegevens hebt:

$X$	$freq_X$	$p_X$
$1$	$1$	$0.25$
$2$	$2$	$0.50$
$3$	$1$	$0.25$

Dan kan je gemakkelijk de waarden van $X$ opslaan in L1, de waarden van $freq_X$ in L2, en vervolgens via 1-Var Stats allerlei statistische maten berekenen. Als alternatief kan je ook $p_X$ in L2 stoppen. Dan doet het rekentoestal alsof $n=1$ en rekent het verder alles correct uit. Het enige probleem is Sx. Die waarde komt overeen met onze $s'_x$ waar een factor $\frac{1}{n-1}$ in staat. Plots wordt daar door $n-1=1-1=0$ gedeeld, en dat kan uiteraard niet. Meestal is dat niet erg omdat je in zo'n situaties enkel nood aan hebt $s_x$ (σx op het rekentoestel). Bij inductieve statistiek kan je in plaats van proporties dan weer kansen $\pi_X$ ingeven. In dit geval is er zelfs geen sprake van een $n$ en kunnen we dus opnieuw Sx niet berekenen. Dat is wederom geen probleem want we zitten al op populatieniveau dus enkel de waarde van $\sigma_X$ is relevant.

Bivariaat

Voor bivariate gegevens ligt het wat moeilijker. Daar kan je $X$ wel ingeven in L1 en $Y$ in L2, maar er is geen ruimte meer voor frequenties of proporties. Het rekentoestel gaat er bij 2-Var Stat impliciet van uit dat elke rij een frequentie van $1$ heeft. Stel dat je met volgende gegevens moet werken:

$X$	$Y$	$freq_{X,Y}$
$1$	$1$	$2$
$1$	$2$	$1$
$2$	$1$	$3$
$2$	$2$	$1$

Dan moet je deze tabel eerst omzetten naar volgende vorm door rijen te dupliceren:

$X$	$Y$
$1$	$1$
$1$	$1$
$1$	$2$
$2$	$1$
$2$	$1$
$2$	$1$
$2$	$2$

Hier kan je rekentoestel wel perfect mee om, ook al staan er dubbels in.

Deze aanpak is realistisch zolang de frequenties redelijk klein zijn. Maar wat als we onderstaande data moeten ingeven?

$X'$	$Y'$	$freq_{X',Y'}$
$1$	$1$	$2000$
$1$	$2$	$1000$
$2$	$1$	$3000$
$2$	$2$	$1000$

In theorie kan je dezelfde aanpak hanteren, maar dan ga je heel lang bezig zijn. Er is gelukkig een betere manier. De meeste statistische maten hangen namelijk enkel af van de onderlinge relatieve verhoudingen in frequentie van de observaties, en niet van de absolute aantallen. Met andere woorden: proporties zijn belangrijk, maar frequenties op basis van het totale aantal $n$ minder.

Voorbeeld:

$\mu_{X'} = \frac{1 \cdot 3000 + 2 \cdot 4000}{7000} = \frac{1 \cdot 3 + 2 \cdot 4}{7} = \mu_X$

Je mag dus doen alsof elke frequentie duizend keer kleiner is. De uitkomst verandert niet zolang de onderlinge verhoudingen gerespecteerd blijven. Dit geldt ook voor andere factoren dan duizend. De kunst is dus om een factor te kiezen die gemakkelijk rekent en de frequenties zo klein mogelijk maakt. Het moeten uiteraard wel gehele getallen blijven. Eens de frequenties klein genoeg zijn, kan je opnieuw via duplicaten met je rekentoestel aan de slag.

We gaven hier het voorbeeld van het (univariate) gemiddelde, maar als je wat experimenteert zal je merken dat deze bevinding op veel uni- en bivariate statistische maten van toepassing is. Probeer deze techniek zelf eens voor o.a. (co)varianties en correlaties.

Je kan hetzelfde principe toepassen als proporties in plaats van frequenties gegeven zijn:

$X$	$Y$	$p_{X,Y}$
$1$	$1$	$0.30$
$1$	$2$	$0.20$
$2$	$1$	$0.35$
$2$	$2$	$0.15$

Uiteraard mag je deze manier van werken ook gebruiken als de gegevens in een kruistabel gegeven zijn:

$X$	$Y=1$	$Y=2$
$1$	$0.30$	$0.20$
$2$	$0.35$	$0.15$

Je zou de assumptie kunnen maken dat $n=100$ en dan met frequenties $30, 20, 35, 15$ werken. Als er drie cijfers achter de komma zouden staan, kan je in de plaats $n=1000$ nemen en bij vier cijfers achter de komma $n=10000$ . Zo heb je gegarandeerd een geheel getal als frequentie. Zelfs voor $n=100$ zijn dit helaas aanzienlijk grote aantallen om te dupliceren. Gelukkig kan je meestal een $n$ vinden die beter geschikt is.

We stellen vast dat in dit voorbeeld de kleinste sprong tussen proporties gelijk is aan $0.35-0.30 = 0.05 = \frac{1}{20}$ . Als we dan $n=20$ proberen, zal er een sprong van grootte $1$ tussen de overeenkomstige frequenties liggen. Er is geen garantie dat deze steekproefgrootte voor alle proporties een geheel getal qua frequentie gaat opleveren, maar het is een poging waard:

$X$	$Y$	$p_{X,Y}$	$freq_{X,Y} = 20p_{X,Y}$
$1$	$1$	$0.30$	$6$
$1$	$2$	$0.20$	$4$
$2$	$1$	$0.35$	$7$
$2$	$2$	$0.15$	$3$

In dit geval komt het dus goed uit. Naast de "kleinste sprong" methode, kan je ook de grootste gemene deler van $30, 20, 35, 15$ zoeken en daar door delen. Die ggd is hier $5$ , dus komen we na deling opnieuw uit op $6, 4, 7, 3$ . Het hoeft trouwens niet per se de grootst mogelijke deler te zijn. Zolang de deler groot genoeg is waardoor de frequenties hanteerbaar worden qua duplicatie is het goed.

Zoals je kan zien vergt het soms wat trial en error om een goede $n$ te kiezen, maar de lagere frequenties die je uiteindelijk bekomt zijn het wel waard qua tijdsbesparing.

Op het examen is het belangrijk dit je dit soort berekeningen enkel op je kladpapier maakt. Als er geen $n$ gegeven is, mag je van de prof niet zomaar de assumptie maken dat $n$ een bepaalde waarde heeft die jou goed uitkomt. Dit is enkel een manier om met je rekentoestel toch snel bepaalde statistische maten te berekenen waarop $n$ geen invloed heeft.

Binomiale verdeling

Mean Sigma

2022-12-04

Helemaal vooraan de cursus van statistiek 2 worden twee belangrijke statistische modellen geïntroduceerd: het Bernoulli model en het binomiaal model. Hoewel dit strikt gezien dus leerstof voor statistiek 2 is, komt kennis hiervan goed van pas tijdens statistiek 1. De kans is trouwens groot dat je dit in het middelbaar al kort gezien hebt. Hieronder volgt een korte crashcourse.

Bernoulli model

Bij elk statistisch model hoort een (geparametriseerde) verdelingsfunctie. Zo is het Bernoulli model - waarbij we als uitkomst enkel succes ( $k=1$ ) of mislukking ( $k=0$ ) kunnen hebben - volledig gespecifieerd met één enkele parameter: de kans op succes $\vartheta \in [0,1]$ . Als $X$ een Bernoulli verdeling volgt, levert dat volgende kansmassafunctie:

$X \sim \operatorname{Bern}(\vartheta) \iff \pi_X(k) = \begin{cases} \vartheta &\mid k=1\\ 1-\vartheta &\mid k=0 \end{cases}$

Het klassieke voorbeeld dat hierbij hoort is het opwerpen van een munt waarbij we uitkomst "kop" als succes beschouwen. $\vartheta = 0.5$ betekent dan dat de munt eerlijk is. Ander voorbeeld: een twee gooien met een eerlijke dobbelsteen kunnen we beschrijven met een $\operatorname{Bern}(\frac{1}{6})$ model.

Binomiaalmodel

Het binomiaal model bouwt hier op verder door dit toevalsexperiment $n$ keer te herhalen en te voorspellen hoeveel successen $k \in \{0, 1, \ldots, n\}$ we kunnen verwachten. De herhalingen moeten hierbij identiek verdeeld en statistisch onafhankelijk van elkaar zijn. In symbolen: $Y \overset{i.i.d.}{=} \sum_i X_i$ . Zo bekomen we een model met twee parameters: $n \in \mathbb N_0$ en $\vartheta \in [0,1]$ .

Als we willen weten wat de kans is op $k=2$ successen bij $n=3$ pogingen, kunnen we dat wegens onafhankelijkheid als volgt berekenen: $\vartheta^2 (1-\vartheta)$ . In dit scenario moeten we wel rekening houden met het aantal combinaties. We hebben hier onze mislukking achteraan geplaatst (XXO), maar XOX en OXX zijn ook geldige uitkomsten waarbij $k=2$ . De complete formule wordt dan $\binom{3}{2}\vartheta^2 (1-\vartheta)^1$ . Meer algemeen met $n$ en $k$ onbekend krijgen we:

$Y \sim \operatorname{Bin}(n, \vartheta) \iff \pi_Y(k) = \binom{n}{k} \vartheta^k (1-\vartheta)^{n-k}$

Een binomiaal model is dus een uitbreiding van een Bernoulli model. Anders gezegd is een Bernoulli model een speciaal geval van een binomiaal model: $\operatorname{Bern}(\vartheta) = \operatorname{Bin}(1, \vartheta)$ .

Het handige aan werken met modellen is dat ze vaak eenvoudige formules hebben om statistische maten te bepalen. In plaats van bijvoorbeeld het gemiddelde op een generieke manier te bepalen als $\mu_Y = \sum_j y_{j'} \pi_Y(y_{j'})$ kunnen we bij een binomiaalverdeling direct weten dat $\mu_Y = n\vartheta$ . Gelijkaardig hebben we dat $\sigma_Y^2 = n\vartheta(1-\vartheta)$ .

De naam van dit model komt voort uit het Binomium van Newton:

$(x+y)^n = \sum_{k=0}^n \binom{n}{k} x^k y^{n-k}$

Voorbeeld: $(x+y)^2 = \binom{2}{0} x^0 y^2 + \binom{2}{1} x^1 y^1 + \binom{2}{2} x^2 y^0 = y^2 + 2xy + x^2$ .

Als $x=\vartheta$ en $y=1-\vartheta$ krijgen we:

$(\vartheta+1-\vartheta)^n = 1^n = 1 = \sum_{k=0}^n \binom{n}{k} \vartheta^k (1-\vartheta)^{n-k}$

Zo hebben we ook ineens bewezen dat voor de binomiale verdeling geldt dat $\sum_k \pi_Y(k) = 1$ , zoals het hoort.

Conclusie

Eens je dit gezien hebt, kijk je met een nieuwe bril naar de inhoud van statistiek 1. Een aantal oefeningen in de cursus (vanaf het inductieve luik) en sommige vragen uit de practica zijn een rechtstreekse toepassing van deze concepten. Onthoud dat je op het examen niet zomaar formules als $\mu_X = n\vartheta$ mag toepassen omdat je ze officieel nog niet gezien hebt, maar het biedt wel een goede houvast en een manier om berekeningen te dubbelchecken.

Zie ook

Formules voor variantie & co

Mean Sigma

2022-11-11

We hebben het eerder al gehad over het gemiddelde dat je op drie manieren kan berekenen. Maar de variantie spant wel de kroon wat betreft het aantal formules, zeker als we conditionele variantie mee in scope nemen.

Om te beginnen hebben we twee soorten varianties die als volgt gedefinieerd zijn:

$s_x^2 = \frac{1}{n} \sum_i (x_i - \overline x)^2$
$s_x^{\prime 2} = \frac{1}{n-1} \sum_i (x_i - \overline x)^2$

Merk op dat $\frac{s_x^{\prime 2}}{s_x^2} = \frac{n}{n-1}$ . Je kan de tweede lijn dus ook schrijven als $s_x^{\prime 2} = \frac{n}{n-1} s_x^2$ .

Naast beide varianties heb je ook nog de standaarddeviaties. Gelukkig moet je die formules niet apart van buiten leren, want het zijn gewoon de vierkantswortels van bovenstaande formules.

$s_x = \sqrt{\frac{1}{n} \sum_i (x_i - \overline x)^2} = \sqrt{s_x^2}$
$s'_x = \sqrt{\frac{1}{n-1} \sum_i (x_i - \overline x)^2} = \sqrt{s_x^{\prime 2}}$

In plaats van de variantie te berekenen volgens de definitie, kan het ook (efficiënter) met de chiastische eigenschap:

$s_x^2 = \frac{1}{n} \sum_i x_i^2 - \overline{x}^2$

Alsof dat nog niet genoeg was, gooit de prof nog vier extra formules in de mix.

$s_x^2 = \frac{1}{n} \sum_j (x_j - \overline x)^2 freq_X(x_j)$
$s_x^2 = \frac{1}{n} \sum_j x_j^2 freq_X(x_j) - \overline{x}^2$
$s_x^2 = \sum_j (x_j - \overline x)^2 p_X(x_j)$
$s_x^2 = \sum_j x_j^2 p_X(x_j) - \overline{x}^2$

Kan het eenvoudiger?

Dit begint verwarrend te worden. Tijd dus om wat orde in de chaos te scheppen. We zullen de zes formules voor $s_x^2$ in een $3 \times 2$ tabel gieten. De rijen staan voor de drie manieren waarop je het gemiddelde kan berekenen en de kolommen voor de manier waarop je de variantie zelf kan berekenen.

gemiddelde	definitie $s_x^2$	chiastische eigenschap
$\frac{1}{n} \sum_i x_i$	$\frac{1}{n} \sum_i (x_i - \overline x)^2$	$\frac{1}{n} \sum_i x_i^2 - \overline{x}^2$
$\frac{1}{n} \sum_j x_j freq_X(x_j)$	$\frac{1}{n} \sum_j (x_j - \overline x)^2 freq_X(x_j)$	$\frac{1}{n} \sum_j x_j^2 freq_X(x_j) - \overline{x}^2$
$\sum_j x_j p_X(x_j)$	$\sum_j (x_j - \overline x)^2 p_X(x_j)$	$\sum_j x_j^2 p_X(x_j) - \overline{x}^2$

Eigenlijk heeft het dus totaal geen zin om de negen formules in de tabel apart van buiten te leren. Als we symbolisch kunnen uitdrukken dat we een gemiddelde van een uitdrukking (zoals $(x - \overline x)^2$ of $x^2$ ) nodig hebben, zonder dat we ons moeten vastpinnen op één specifieke rekenmethode, kunnen we de tabel drastisch vereenvoudigen. Hiervoor gebruiken we de notatie met de streep boven de uitdrukking zoals we dat ook al deden voor $\overline x$ .

gemiddelde	definitie $s_x^2$	chiastische eigenschap
$\overline x$	$\overline{(x - \overline x)^2}$	$\overline{x^2} - \overline{x}^2$

Op deze manier zit de essentie van alle zes formules vervat in slechts twee formules. Samen met de drie formules voor het gemiddelde (dus vijf in totaal) kan je de hele tabel hierboven met negen formules reconstrueren. Een mooie besparing!

Samengevat moet je voor dit luik van de leerstof enkel dit onthouden:

$s_x^2 = \overline{(x - \overline x)^2} = \overline{x^2} - \overline{x}^2$
$s_x^{\prime 2} = \frac{n}{n-1} s_x^2$
$s_x = \sqrt{s_x^2}$
$s'_x =\sqrt{s_x^{\prime 2}}$

Conditionele varianties

Wat verderop in de cursus worden conditionele varianties geintroduceerd. Zelfs zonder de aanwezigheid van standaarddeviaties en $s'$ varianten krijg je hier acht complexe formules naar het hoofd geslingerd. De eerste boosdoener is het feit dat conditionele variabelen in twee richtingen kunnen voorkomen: $X \mid Y$ of $Y \mid X$ . Dit is puur een kwestie van $X$ en $Y$ van plaats te wisselen (en ook $j \leftrightarrow j'$ ). Van de acht formules kan je er dus al vier schrappen als niet-essentieel.

De vier overgebleven formules vertonen een bekend patroon! Er zijn twee manieren om het conditionele gemiddelde te berekenen ( $freq$ of $p$ ), en we zitten opnieuw met het onderscheid tussen definitie en chiastische eigenschap. We kunnen dus dezelfde vereenvoudiging doorvoeren als we gedaan hebben in het univariate luik.

gemiddelde	definitie $s_{y \mid X=x_j}^2$	chiastische eigenschap
$\overline{y \mid X=x_j}$	$\overline{(y - \overline{y \mid X=x_j})^2 \mid X=x_j}$	$\overline{y^2 \mid X=x_j} - \overline{y \mid X=x_j}^2$

Covarianties

Nu is de beurt aan jullie. Hoe zouden jullie de formules rond covarianties vereenvoudigen?

Post-mortem

Mean Sigma

2022-11-06

Post-mortem (meaning after death) is short for 'post-mortem examination', or autopsy, an examination of a corpse in order to determine cause of death.

Als je deze post aan het lezen bent, is het wellicht nog niet te laat voor jou. Helaas is de realiteit dat elk jaar opnieuw honderden studenten uitstromen uit de bachelor psychologie zonder diploma. Bij velen was het universitair niveau (of toch dat van de KU Leuven) wat te hoog gegrepen waardoor ze voor meerdere vakken in de problemen kwamen. Het wordt schrijnender als studenten op andere vakken wel goede punten halen maar toch statistiek blijven meeslepen tot al hun examenkansen opgebruikt zijn. Sinds het mijlpaalsysteem is ingevoerd is het aantal examenkansen zelfs verder gedaald van zes naar vier. Ik heb dit proces helaas al vaker van dichtbij meegemaakt omdat studenten bij mij komen aankloppen voor hulp. Voor mij zijn de rode knipperlichten niet zo moeilijk te zien, maar studenten lijken er vaak blind voor te zijn tot het te laat is. Het verhaal van Lies (fictief personage) hieronder illustreert wat ik hiermee bedoel.

Disclaimer: elke gelijkenis met bestaande personen of gebeurtenissen berust op louter toeval.

Lies komt uit het ASO (humane wetenschappen). Ze was slim genoeg zodat ze vroeger op school nooit echt hard heeft moeten werken om middelmatige punten te halen. De afgelopen twee academiejaren studeerde ze psychologie aan de KU Leuven. Haar eerste academiejaar in Leuven verliep nogal hobbelig. Ze wist in het begin nog niet goed hoe ze met de grote hoeveelheden leerstof moest omgaan. De vrijheid die ze plots kreeg door op kot te gaan, hielp op dat vlak ook niet echt. De meeste vakken leken doorheen het semester nog wel mee te vallen. Enkel bij statistiek was ze de draad ergens halverwege het semester helemaal kwijtgeraakt. Eigenlijk was het al vrij vroeg in het semester beginnen mis te lopen met een slechte score op de voorkennistoets. Ze begon verder en verder achter te lopen, en de practica en vragencolleges brachten haar eigenlijk enkel nog meer in de war. De 1/20 die ze haalde op haar proefexamen statistiek was al bij al geen grote verrassing.

Tijdens de blok besefte ze al snel dat haar voorbereiding voor alle vakken doorheen het semester onvoldoende was. Haar planning die ze in het begin van de blokperiode had opgesteld bleek al na enkele dagen totaal onhaalbaar. De week tijd die ze had gereserveerd vlak voor het examen statistiek werd uiteindelijk deels ingepalmd door andere vakken die uitliepen. Lies had al gehoord dat het examen statistiek heel moeilijk was. Met haar beperkte voorkennis uit het secundair en haar slechte voorbereiding ging dat toch niet meer lukken op dit punt. Ze besloot uiteindelijk om het examen statistiek uit te stellen tot augustus, en nu vooral voorrang gegeven aan andere vakken die nog wel haalbaar leken.

De examenperiode in januari was een zware periode voor haar. Naar het einde toe was ze echt uitgeput. Ze heeft er nog het beste van proberen te maken, maar ze was uiteindelijk maar voor één van de vijf examens geslaagd (sociale psychologie). Lichtpuntje: sommige resultaten waren maar nipte onvoldoendes.

In het tweede semester wist ze al iets beter hoe ze haar vakken moest aanpakken en leerde ze om beter aan time management te doen. Dat vertaalde zich ook in haar academische resultaten: van de zes examens had ze maar twee onvoldoendes (neuro 1 en biologie).

Lies had dus in totaal zes herexamens. Begin juli heeft ze eerst een tijdje moeten bekomen van opnieuw een zware examenperiode. Eind juli ging ze nog tien dagen op kamp met de jeugdbeweging, iets waar ze al maanden naar uitkeek. Ze had wel enkele cursussen meegenomen in de hoop tussendoor wat te kunnen studeren, maar dat is niet echt gelukt. Vlak daarna is ze vol goede moed opnieuw beginnen te blokken. Toch was dat niet vanzelfsprekend door het slaaptekort dat ze tijdens het kamp had opgebouwd. Het eerste examen viel daarbovenop al vroeg in de tweede helft van augustus. Erger nog: er waren maar weinig vrije dagen tussen de daaropvolgende examens. Lies besefte snel dat het heel moeilijk zou worden om al die vakken (waaronder vier heel zware: functieleer 1, statistiek 1, neuro 1, biologie) op die tijd met de nodige diepgang te verwerken. Vooral de vakken uit het eerste semester zaten heel ver weg. Na een babbel met een studieloopbaanbegeleider besloot Lies om maar vier van de zes herexamens mee te doen. "Beter zo en dan slagen op die vier vakken in plaats van alle zes te proberen en dan voor alles te buizen", dacht ze. Haar plan was om twee van de vier zware vakken op te nemen (één van elk semester), samen met de twee lichtere vakken (sociologie en methoden 1). Voor het eerste semester koos ze om functieleer 1 te proberen en statistiek dus uit te stellen. Lies maakte wel het voornemen om volgend academiejaar 100% voor statistiek te gaan en ook bijles te nemen. Voor het tweede semestervak koos ze voor neuro 1, ten koste van biologie.

Na een hectische zomer kwamen de resultaten binnen: geslaagd op alle deelgenomen examens behalve functieleer 1 (9/20). Aangezien Lies niet aan alle examens heeft deelgenomen, kon ze voor dat vak niet gedelibereerd worden. Ze moest dus statistiek 1, functieleer 1 en biologie meenemen naar het tweede jaar. Voor ze aan dat tweede jaar zou beginnen, was het wel hoog tijd om haar hoofd leeg te maken en een reisje te boeken.

Enkele weken later begon Lies met herwonnen moed aan haar tweede jaar. Naast de drie eerstejaarsvakken had ze ook al enkele vakken uit de twee fase opgenomen om haar programma te vullen. De cursus statistiek was weinig of niet veranderd tegenover het jaar ervoor maar na een negental maanden geen wiskunde of statistiek meer beoefend te hebben, is er toch teleurstellend weinig blijven hangen. Ze had niet het gevoel dat ze het veel beter begreep dan een jaar eerder. Ze had gelukkig ondertussen wel iemand gevonden die haar bijles wou geven en waar ze met haar vragen bij terecht kon.

Een aantal weken later kwam het proefexamen statistiek er aan. Lies twijfelde om hier aan mee te doen, omdat ze ondertussen wel wist hoe examens aan de KU Leuven er aan toe gaan. Bovendien moest ze het weekend voor dat proefexamen gaan helpen op het mosselfeest van de jeugdbeweging. Zonder goede voorbereiding zou de uitslag toch niet betrouwbaar zijn, redeneerde ze.

Eens de blok was aangebroken, voelde ze zich al iets meer op haar gemak dan 12 maanden eerder. De voorbereiding voor de meeste vakken verliep vlot, al bleef statistiek een grote uitdaging. Ze had deze keer een betere planning gemaakt, met veel tijd voor statistiek.

Eens de examens achter de rug waren, had ze wel een goed gevoel bij de meeste vakken. Zelfs voor statistiek had ze hoop om een delibereerbaar cijfer te halen. De schok was dus groot toen ze naast haar andere mooie cijfers een 4/20 voor statistiek zag verschijnen. Ze is vervolgens haar examen gaan inkijken. Daaruit bleek dat ze naast de vele rekenfoutjes vaak gezondigd had tegen de notatiewijze. Ook al had ze veel oefeningen conceptueel wel redelijk opgelost, het was niet goed genoeg voor de prof.

Oorspronkelijk had ze zich voorgenomen om in het tweede semester tussendoor nog wat voor statistiek te werken zodat ze de kennis en vaardigheden die ze had opgebouwd niet opnieuw zou verliezen zoals vorige keer. In de praktijk bleek het moeilijk om voldoende moed te vinden om dat voornemen waar te maken. Daarbovenop waren de tweedejaarsvakken in combinatie met biologie ook best zwaar. Na een geslaagde juni zittijd had ze het gevoel dat ze weer bijna van nul voor statistiek moest beginnen. Haar budget voor bijlessen was ondertussen uiteraard op, dus ze stond er alleen voor. Anderzijds had ze wel bewezen dat ze andere moeilijke vakken tot een goed einde kon brengen.

In de zomer heeft ze nog één keer geprobeerd om alles te geven. Ze had zes weken tijd voor één herexamen. Dat zou toch doenbaar moeten zijn? De laatste dagen voor het examen heeft ze oude examenvragen proberen op te lossen, en dat viel eigenlijk verrassend goed mee. Met een klein hartje maar toch hoopvol begon ze aan haar vierde examenpoging. Halverwege het examen schoot haar stressniveau plots de hoogte in: het besef dat dit haar allerlaatste kans was, drong plots helemaal door. Ze probeerde er niet te veel aan te denken en te focussen op de examenvragen, maar tevergeefs. Ze merkte dat ze zich niet meer kon concentreren op de vragen, en dat deed haar nog meer panikeren. Vanaf dat punt had ze een black-out en lukte geen enkele vraag nog. Ze besefte dat het voorbij was...

Als je dit verhaal leest, kan je de individuele beslissingen van Lies op elk moment en gegeven de context wel begrijpen. Toch maakte ze een paar cruciale fouten op rij die haar uiteindelijk de das omgedaan hebben. Merk trouwens op dat ik Lies in dit verhaal o.a. bespaard heb van ziekte, liefdesverdriet of een sterfgeval in de familie. Die zaken gebeuren in het echt wel af en toe en gooien een planning vaak helemaal in de war.

Merk om te beginnen op dat Lies van de vier examenkansen er maar twee echt heeft benut. Dit is een terugkerend fenomeen bij veel studenten. Studenten blijven redenen verzinnen waarom het een goed idee is om statistiek even aan de kant te schuiven en iets anders prioriteit te geven. In de praktijk is dat altijd een slecht idee. Als studenten effectief tegen de limiet van vier examenkansen botsen, gaat het in de overgrote meerderheid van de gevallen om statistiek. Moet je op een gegeven moment de keuze maken tussen statistiek of een ander vak? Geef dan prioriteit aan statistiek.

In die concrete geval heeft Lies twee keer niet meegedaan met het examen. Een veelvoorkomende variant daarop is meedoen zonder deftige voorbereiding. Op die manier weet je hoe een examen statistiek er aan toegaat, en wat voor vragen je kan verwachten. In die zin is het een kleine verbetering op helemaal niet meedoen, maar het blijft een verspilde examenkans. De kernboodschap is dus: benut examenkansen statistiek ten volle.

Over examenkansen gesproken: als je moet vertrouwen op de vierde en laatste kans zit je sowieso al diep in de gevarenzone. Daarbovenop is de eerste examenkans bij de overgrote meerderheid van studenten geen groot succes. Examenkansen twee en drie zijn dus de momenten waarop je het meest moet inzetten. Daarmee heb ik niet gezegd dat je de eerste examenkans niet serieus moet nemen. Doe dat zeker wel, want dat legt een noodzakelijke basis of je nu direct slaagt of niet.

Prioriteiten stellen is ook in het tweede semester erg belangrijk. Het is verleidelijk om statistiek volledig links te laten liggen en te focussen op de vakken waar je in juni examen van hebt. Het gevolg is echter dat je het gevoel zal hebben dat je opnieuw van nul begint in augustus. Blijf dus tussendoor investeren in statistiek 1. Wie van plan is bijles te nemen doet er ook beter aan dat gespreid doorheen het tweede semester te doen i.p.v. als crashcourse op één week in de zomer.

Een goede tussenoplossing voor bissers is om statistiek 2 op te nemen in het tweede semester van het tweede jaar. Zo blijf je bezig met de materie in de ruime zin. Pas in dat geval wel op: de herexamens van statistiek 1 en 2 vallen vlak na elkaar (typisch vrijdag en maandag). Als je in die situatie zit, geef dan 100% voorrang aan statistiek 1 en laat 2 volledig links liggen.

Wat herexamens betreft: ze zijn er sneller dan je zou denken. Neem gerust een week of twee vakantie vlak na de juni zittijd, maar daarna is het tijd om er opnieuw in te vliegen. Als je in augustus nog moet beginnen, ben je hoogstwaarschijnlijk te laat. In september heb je wel nog een paar weken vakantie, maar in juli en augustus moet je niet te veel plannen maken rond vakantiewerk, jeugdbeweging, reizen of wat dan ook. In het geval van Lies was het eind januari al duidelijk dat haar zomer zo goed als volgeboekt zou zijn met herexamens. Dat zijn absoluut geen leuke opofferingen om te maken. Anderzijds had Lies haar leven er mogelijk heel anders kunnen uitzien als ze die tien dagen zomerkamp anders ingevuld had. Iedereen mag zijn of haar eigen keuzes maken natuurlijk, maar hou wel the big picture in de gaten terwijl je de knoop doorhakt.

Niet alleen tijdens blok- en examenperiodes moet je belangrijke beslissingen maken. Ook de kleine dingen zoals al dan niet meedoen met een voorkennistoets en proefexamen kunnen een groot effect hebben. Als Lies had meegedaan met het proefexamen, had ze wellicht feedback gekregen over haar notatiewijze die haar een paar punten extra had kunnen opleveren op het echte examen. Feedback is hier het kernwoord. De prof heeft een heel specifieke manier van verbeteren, en zo veel te meer feedback je krijgt op je eigen probeersels, zoveel te beter je zal kunnen inschatten hoe de prof het graag heeft.

Algemeen gesproken zijn er achteraf gezien in elk verhaal van studenten die het niet halen wel een paar rode knipperlichten te vinden. De kunst bestaat er in om ze tijdig bij jezelf te zien, en bij te sturen waar nodig. Hopelijk heeft het verhaal van Lies op dat vlak jullie wat kunnen helpen.

Ongelijkheid van Tchebychev

Mean Sigma

2022-10-28

In de cursus vinden we twee vormen van de ongelijkheid van Tchebychev:

$k > 1 \implies p( |X-\overline x| \geq ks_x) \leq \frac{1}{k^2}$

$k' > 1 \implies p[(X-\overline x)^2 \geq k' s_x^2] \leq \frac{1}{k'}$

In het tweede luik van de cursus vinden we ook nog de twee inductieve tegenhangers hiervan.

Wanneer gebruiken?

De enige reden waarom je de ongelijkheid van Tchebychev zou gebruiken, is als je de verdeling van de toevalsvariabele $X$ niet kent: geen $p_x$ , geen $\pi_X$ , geen $\Phi_X$ , ... Als je de verdeling wel kent, heeft deze ongelijkheid geen enkel nut meer. Dan kan je veel nauwkeuriger de kansen o.b.v. de verdelingsfunctie berekenen.

Als je er over nadenkt, is het wel straf dat we toch nog bepaalde uitspraken kunnen doen over $X$ zonder dat we veel over de verdeling weten. Uiteraard moeten we wel het gemiddelde en de variantie kennen. Dat is meteen ook een goede tip voor op het examen: als kansen gevraagd worden over een variabele waar je verdacht weinig over weet behalve die twee maten, is de kans groot dat je met Tchebychev aan de slag moet. Andersom kan het zijn dat je één maat krijgt en de constante $k$ , en dan je de andere maat moet proberen achterhalen. Ook die oefeningen zijn herkenbaar door de aanwezigheid van die constante.

Vereenvoudigen

Naar analogie met de eerdere blogpost rond dissectie van formules gaan we deze formules proberen te ontleden.

Aangezien beide varianten nogal een mond vol zijn, zouden we graag een manier vinden om ze korter voor te stellen. Met een concept dat we enkele bladzijden verderop in de cursus geleerd hebben, is dat gelukkig niet al te moeilijk. We kunnen binnen de proportie namelijk beide leden delen door $s_x$ (resp. $s_x^2$ ) tot we plots iets herkenbaar zien.

$k > 1 \implies p\left(\frac{|X-\overline x|}{s_x} \geq k\right) \leq \frac{1}{k^2}$

$k' > 1 \implies p\left[\frac{(X-\overline x)^2}{s_x^2} \geq k' \right] \leq \frac{1}{k'}$

Voor we verder gaan moeten we ons wel de vraag stellen: mogen we die deling altijd zomaar uitvoeren? Helaas niet, we komen in de problemen als $s_x = 0$ of als $s_x < 0$ .

Als $s_x = 0$ delen we door $0$ , wat uiteraard niet toegestaan is. Gelukkig komt die situatie niet zo vaak voor. Een spreiding van $0$ betekent intuitief dat er geen spreiding is of dat dus alle gegevens op elkaar liggen.

$s_x^2 = \frac{1}{n} \sum_i (x_i - \overline x)^2 = 0$
$\iff \sum_i (x_i - \overline x)^2 = 0$

De som van positieve getallen kan alleen nul zijn als elke individuele term ook nul is

$\iff \forall i: (x_i - \overline x)^2 = 0$
$\iff \forall i: x_i = \overline x$

Dit kan dus enkel als alle observaties gelijk zijn aan hun gemiddelde en dus ook gelijk zijn aan alle andere observaties. In dat geval blijft er weinig mysterie over rond onze toevalsvariabele en hebben we Tchebychev niet nodig om uitspraken over proporties te doen.

Naast $s_x=0$ geeft ook $s_x < 0$ problemen. Gelukkig is dat per definitie onmogelijk. (Als dit wel mogelijk was, zou onze ongelijkheid omdraaien omdat we delen door een negatief getal.)

Nu kunnen we onze formules verder herschrijven:

$k > 1 \implies p\left( \left|\frac{X-\overline x}{s_x}\right| \geq k\right) \leq \frac{1}{k^2}$

$k' > 1 \implies p\left[\left(\frac{X-\overline x}{s_x}\right)^2 \geq k'\right] \leq \frac{1}{k'}$

Aangezien $s_x = |s_x|$ kunnen we de absolute waarde uitbreiden naar heel de breuk. In de tweede formule kunnen we op een gelijkaardige manier de macht rond de hele breuk zetten.

Het heeft wat moeite gekost, maar door deze stappen te zetten kunnen we nu wel drastisch vereenvoudigen:

$k > 1 \implies p(|Z_X| \geq k) \leq \frac{1}{k^2}$

$k' > 1 \implies p(Z_X^2 \geq k') \leq \frac{1}{k'}$

Interpretatie

Als je een intuitief begrip hebt van Z-scores, kan je de formules op deze manier wellicht al wat beter vatten. Tchebychev zegt eigenlijk gewoon dat hogere Z-scores (dus waarden verder weg van het gemiddelde) een steeds kleinere kans hebben.

Nog een andere formuleringswijze

Vertrek van de oorsponkelijke stelling:

$k > 1 \implies p( |X-\overline x| \geq ks_x) \leq \frac{1}{k^2}$

Stel nu $k = \frac{a}{s_x}$ . Dan krijgen we:

$a > s_x \implies p( |X-\overline x| \geq a) \leq \frac{s_x^2}{a^2}$

Voor de tweede stelling krijgen we op gelijkaardige manier met $k' = \frac{a'}{s_x^2}$ :

$a' > s_x^2 \implies p[(X-\overline x)^2 \geq a'] \leq \frac{s_x^2}{a'}$

Wat met de constante?

Een andere vraag die je jezelf zou kunnen stellen, is waarom $k$ per se groter dan één moet zijn. Wat gebeurt er als $k \in \mathopen]0, 1]$ ? Dan is $\frac{1}{k^2} \geq 1$ . Aangezien een proportie altijd in $[0, 1]$ ligt, leren we hier niets nieuw meer uit. De formule is dus niet fout voor deze waarden van $k$ , maar ook niet nuttig.

Een ander geval om naderbij te bekijken is $k=0$ . In dat geval komen we wel in de problemen omdat we in het rechterlid delen door nul. Anderzijds hebben we Tchebychev niet nodig om te weten wat de proportie $p(|Z_X| \geq 0)$ is, want die is altijd gelijk aan $1$ .

Tot slot, wat met $k < 0$ (resp. $k' < 0$ )? Hier kunnen we dezelfde redenering toepassen: $|Z_X|$ is gegarandeerd groter dan een negatieve $k$ dus de proportie zal opnieuw altijd $1$ zijn.

Voor $k'$ kunnen we een analoge redenering opbouwen. Conclusie: strikt gezien had er als voorwaarde $k > 0$ (resp. $k' > 0$ ) mogen staan, maar we zouden daar niets bij winnen. Pas bij waarden strikt groter dan $1$ begint de stelling te renderen.

Relatie tussen de twee stellingen

In de cursus worden de twee stellingen als equivalent neergezet. Een bewijs daarvan krijgen we helaas niet. Je moet de prof dus op zijn woord geloven. Een kritische student zou toch kunnen proberen om zelf uit de eerste versie de tweede te bewijzen of omgekeerd.

Je kan beginnen met in de tweede stelling $k'$ gelijk te stellen aan $k^2$ . Dan krijg je:

$k^2 > 1 \implies p(Z_X^2 \geq k^2) \leq \frac{1}{k^2}$

Dit lijkt al een beetje op de eerste stelling, maar we zijn er nog niet helemaal. Voor positieve waarden van $k$ komt de uitspraak $k^2 > 1$ inderdaad mooi overeen met $k > 1$ . M.a.w.: $\forall k \in \mathbb R_0^+: k^2 > 1 \iff k > 1$ . Dan hebben we:

$k > 1 \implies p(Z_X^2 \geq k^2) \leq \frac{1}{k^2}$

Als derde en laatste stap moeten we aantonen dat $p(Z_X^2 \geq k^2) = p(|Z_X| \geq k)$ . Meer algemeen zou moeten gelden dat $\forall c: p(X^2 \geq c^2) = p(|X| \geq |c|)$ . Merk op dat we $Z_X$ vervangen hebben door $X$ omdat deze stelling niet specifiek afhangt van Z-getransformeerde variabelen maar wellicht meer algemeen geldig is. Verder hebben we het over $|c|$ i.p.v. $k$ . Aangezien $k$ altijd strikt positief moet zijn, kunnen we in dat specifieke geval de absolute waarde achterwege laten.

In de praktijk blijkt het moeilijk te zijn om hier een formeel bewijs voor te geven, maar de face validity van de stelling is gelukkig al redelijk hoog. Ze rust op het feit dat $\sqrt{x^2} = |x|$ en dat de vierkantswortel als strikt monotoon stijgende functie geen vreemde effecten op ongelijkheden heeft. Als je de stelling probeert toe te passen op verschillende voorbeelden merk je ook dat het altijd lijkt te kloppen. Geen van beide opmerkingen is een garantie dat de stelling effectief klopt, maar het is voorlopig goed genoeg voor ons. Beide stellingen lijken dus inderdaad helemaal equivalent aan elkaar te zijn.

Cassie Kozyrkov - Statistical Thinking

Mean Sigma

2022-10-24

Leuk gebrachte YouTube reeks van Cassie Kozyrkov (Chief Decision Scientist bij Google) over statistiek. Vooral interessant voor studenten die met Statistiek voor Psychologen: deel 2 bezig zijn.