De statistiek achter Dunning-Kruger

De afgelopen weken was er op het internet een hele discussie gaande over de statistische onderbouw van het Dunning-Kruger effect. Interessant voor wie eens wat dieper wil duiken in concrete psychologische toepassingen van de theorie die we in de les zien.

Het begon allemaal met een artikel getiteld The Dunning-Kruger Effect is Autocorrelation. De reacties kan je o.a. hier lezen. Iemand kon zich niet in de conclusie vinden, en schreef zijn verantwoording hier neer. Reacties daarop vind je dan weer hier.

Kansbomen

Examenvragen over kansrekenen kunnen best pittig zijn. Als je op goed geluk formules begint toe te passen, weet je halverwege vaak niet meer waar je zit en hoe je verder moet. De vraag hieronder is op examenniveau. Zonder hulpmiddelen is het best moeilijk om die op te lossen. Met de juiste visualisatie (bijvoorbeeld een kansboom) valt het nochtans goed mee.

Oefening

Stel dat de kans 40% bedraagt dat iemand met gescheiden ouders een onveilig hechtingstype heeft. De kans dat iemand met een onveilig hechtingstype gescheiden ouders heeft, is 30%. De kans op onveilige hechting is 15%. Wat is de kans dat iemand die geen gescheiden ouders heeft veilig gehecht is?

(De cijfers zijn niet erg realistisch gekozen, maar het is zoals gewoonlijk vooral de techniek die telt.)

Gegeven

  • : veilig hechtingstype
  • : gescheiden ouders

Gevraagd

Oplossing

Een kansboom bestaat uit knooppunten en takken. De relaties tussen knooppunten drukken we soms uit alsof het om een familiestamboom zou gaan (ouder, kind, ...). Knooppunten met een voorwaardelijke kans hebben een stippellijn. We vertrekken uit een speciaal knooppunt genaamd de stam . is immers de zekere gebeurtenis en dus het ideaal startpunt. Vaak wordt deze formule niet expliciet vermeld, maar hier schrijven we het er voor de volledigheid toch bij. Uit de stam kunnen we nu een afsplitsing maken tussen ofwel veilige-onveilige hechting ofwel al-dan-niet gescheiden ouders. We kiezen voor het eerste omdat we daar de meeste gegevens over hebben. Pas op het tweede niveau maken we in elk van de knooppunten een nieuwe opsplitsing naar soort ouders. In deze kansboom kunnen we direct twee gegevens invullen en een aantal extra kansen berekenen.

kansboom-1

Een kansboom visualiseert mooi de formule van voorwaardelijke kans: . Om de onvoorwaardelijke kans van een dieper gelegen knooppunt te berekenen, vermenigvuldig je gewoon de kansen van alle bovenliggende knooppunten (de voorouders). Concreet:

De som van een kans en zijn complement is altijd gelijk aan , dus we kunnen ook direct berekenen dat . Achteraf zal blijken dat we die waarde niet echt nodig hadden, maar dat kan je op dit moment moeilijk voorspellen. Vul dus zeker direct alle waarden aan die je op het zicht kan berekenen.

Voorwaardelijke kansen hebben een gelijkaardige regel: . Dat helpt ons weer een stap verder in de kansboom:

Daarmee kunnen we de laatste tak in de linkerhelft van de boom uitrekenen:

De som van de twee onderste knooppunten zou opnieuw de kans op hun gemeenschappelijke bovenliggend knooppunt moeten zijn, m.a.w.

Dat lijkt goed te zitten. We hadden ons dus de moeite kunnen besparen om te berekenen, maar dit soort dubbelchecks zijn anderzijds wel heel nuttig om rekenfoutjes op te sporen.

Over de rechterhelft van de kansboom hebben we geen informatie, dus nu zitten we vast. Bij eenvoudigere oefeningen heb je hier typisch meer gegevens over. Dan kan je in deze ene boom blijven verder rekenen. Voor moeilijkere oefeningen zoals deze moeten we er een tweede kansboom bijhalen. Deze keer splitsen we eerst in gescheiden-niet gescheiden ouders en in twee instantie pas in veilig-onveilig gehecht.

kansboom-1kansboom-2

De voorwaardelijke kansen in deze tweede boom staan nu in omgekeerde volgorde van die in de eerste boom: i.p.v. . Die zou je met Bayes kunnen berekenen, maar zo moeilijk moet je het zelfs niet maken. Aangezien kan je een deel van de kansen uit de eerste boom letterlijk overnemen in de tweede. In de onderste tekening staan de middelste takken gekruist om de volgorde te laten overeenkomen met die van de eerste boom. Verder vullen we het laatste gegeven in en ook het complement daarvan.

Nu moeten we de formule voor voorwaardelijke kans andersom toepassen om te berekenen:

Daar krijgen we gratis het complement bij:

Nu kunnen we de formule voor voorwaardelijke kans weer in originele vorm toepassen:

Op dit punt is het weer nuttig om kort een dubbelcheck te doen:

Aangezien we nu drie van de vier doorsnedes kennen, en hun som uiteraard gelijk moet zijn aan , kunnen we de vierde berekenen:

Tot slot kunnen we de kans op de tussenliggende tak berekenen:

Daarmee hebben we het gevraagde gevonden. Wie wil kan de resterende kansen in de twee kansbomen nog verder uitrekenen. Elke tak zou berekenbaar moeten zijn op basis van de gegevens.

Recap

In de eerste plaats zijn kansbomen dus een manier om de regel rond voorwaardelijke kansen overzichtelijker te maken. Afhankelijk van wat er al bekend is en wat je nog moet berekenen ga je de formule wat moeten herschrijven.

Verder zijn er de rekenregels rond kansen die je goed in de vingers moet hebben. Zo wordt de (onvoorwaardelijke) kans in een bepaald knooppunt altijd verdeeld onder de vertakkingen. Als je de kansen van al die kinderen terug optelt, moet je dus opnieuw bij de kans van die ouder uitkomen. Dit werkt trouwens niet alleen met kinderen, maar ook met kleinkinderen. In een boom van twee niveaus diep heb je bijvoorbeeld vier kleinkinderen die samen evenveel kans hebben als de stam ( dus). In symbolen:

Uit de algemene formule voor onvoorwaardelijke kansen kan je ook de formule voor voorwaardelijke kansen afleiden:

De som van de voorwaardelijke kansen van alle mogelijke gebeurtenissen binnen voorwaarde is dus niet de kans op zelf, maar gewoon . Concreet:

Uitbreidingen

In bovenstaande oefening hebben we steeds met twee opsplitsingen gewerkt: een kans en zijn complement. Zo krijg je een binaire kansboom. Afhankelijk van de oefening kan het nuttig zijn om met meer vertakkingen te werken. Als je bijvoorbeeld verschillende kansen wil berekenen naargelang een waarde stijgt, daalt of gelijk blijft, heb je op die plaats drie vertakkingen nodig. Op andere plaatsen in de kansboom mag je een ander aantal vertakkingen gebruiken, het moet niet overal evenveel zijn. In wiskundige termen is het enkel belangrijk dat elke opsplitsing van een knooppunt een partitie vormt. De unie van alle kinderknopen moet dus gelijk zijn aan de ouderknoop, en er mag geen overlap zijn tussen de kinderen. Een opdeling in leeftijd en mag dus niet, want dan zitten achttienjarigen in beide vertakkingen.

De diepte van de boom bleef hierboven ook beperkt tot twee niveaus. In theorie kan je een kansboom zo diep maken als nodig, al zal je dat in de praktijk niet vaak nodig hebben. De basisprincipes blijven alleszins overeind. Voor drie niveaus geldt bijvoorbeeld:

En Bayes dan?

We hebben in heel deze oefening geen enkele keer Bayes gebruikt. Als het er in een oefening dik op ligt dat je een kans van de vorm moet berekenen op basis van een gegeven kans , kan je natuurlijk perfect de regel van Bayes toepassen. Toch is het voor veel studenten moeilijk om een goede intuitie te ontwikkelen over wat die regel nu eigenlijk echt betekent. In dat geval is het beter om het bij de simpele en begrijpbare formule van voorwaardelijke kans te houden. Daar kan je evenveel mee, maar je gaat waarschijnlijk een paar extra tussenstappen nodig hebben. In bovenstaande oefening hadden we uit de gegevens rechtstreeks kunnen berekenen aan de hand van de regel van Bayes. Toch zijn we zonder die regel ook tot het juiste resultaat gekomen.

Andere visualisaties

Naast kansbomen zijn Venn diagrammen en kruistabellen ook handige hulpmiddelen bij vragen over kansrekenen. Er bestaat geen perfect hulpmiddel dat in alle gevallen werkt, dus je zal moeten experimenteren om het juiste te vinden. Hoe dan ook zijn al deze manieren beter dan blindelings formules toe te passen.

Tot slot nog een vraag voor jullie: hoe kan je aan een kansboom zien dat twee gebeurtenissen onafhankelijk van elkaar zijn?

Kwaliteit vs kwantiteit

The ceramics teacher announced on opening day that he was dividing the class into two groups. All those on the left side of the studio would be graded solely on the quantity of work they produced, all those on the right solely on its quality.

Well, came grading time and a curious fact emerged: the works of highest quality were all produced by the group being graded for quantity. It seems that while the “quantity” group was busily churning out piles of work – and learning from their mistakes – the “quality” group had sat theorizing about perfection, and in the end had little more to show for their efforts than grandiose theories and a pile of dead clay.

Bron: Bayles, D., & Orland, T. (2001). Art & fear: Observations on the perils (and rewards) of artmaking. Image Continuum Press.

Stof tot nadenken...

Logaritmes

In [3]:
import numpy as np
from numpy import log10 as log
from matplotlib import pyplot as plt

Statistici transformeren graag variabelen, en naast lineaire transformaties van de vorm $f(x) = ax + b$ zijn ook logaritmische transformaties van de vorm $f(x) = \log_b x$ heel populair. In deze post herhalen we kort de motivatie, definitie, grafiek en bijhorende rekenregels.

Motivatie

Stel dat we een vergelijking hebben van de vorm $x = b^y$. Kunnen we die apart oplossen naar $b$ en $y$? Voor $b$ hebben we een wortel nodig: $b = \sqrt[y]{a}$. Voor $y$ zitten we helaas vast. We hebben een wiskundig concept nodig dat $y$ uitdrukt in termen van $b$ en $x$.

Definitie

Om het logaritme te kunnen nemen van een getal $x$, moeten we eerst een basis $b$ kiezen. In de cursus statistiek 1 zal dat bijna altijd $b=10$ zijn. Dat geeft het gewone of Briggse logaritme. In dat geval laten we de $b$ gewoon achterwege in de formules, dus $\log x = \log_{10} x$. In vervolgcursussen kan die basis evengoed $b=2$ (binair logaritme), $b=e$ (natuurlijk logaritme $\ln$) of eender welk ander strikt positief getal zijn (behalve $1$). De definitie gaat als volgt:

$$\forall x \in \mathbb R_0^+: \log_b x = y \iff b^y = x$$

In woorden: tot welke macht moet ik $b$ verheffen om $x$ uit te komen? De simpelste voorbeelden zijn $\log 10 = 1$ want $10^1 = 10$ en $\log 1 = 0$ want $10^0 = 1$. Logaritmes werken ook voor decimale getallen. Zo heb je bijvoorbeeld $\log 0.1 = -1$ want $10^{-1} = \frac{1}{10} = 0.1$. Niet elk getal zal zo'n mooie ronde uitkomst hebben. $0 < \log 5 < 1$ want $10^0 < 5 < 10^1$, is zowat het enige dat we op het zicht kunnen zeggen. We hebben een rekenmachine of computer nodig om de exacte waarde uit te rekenen.

In [4]:
log(5)
Out[4]:
0.6989700043360189

Wiskundig gezien is het logaritme dus gedefinieerd als een inverse functie. Als $x = f(y) = b^y$, dan is $y = f^{-1}(x) = \log_b x$. Kenmerkend aan een inverse functie is dat ze het effect van de originele functie ongedaan maakt. Dus $f^{-1}(f(y)) = f^{-1}(b^y) = \log_b b^y = y$. Andersom mag ook: $f(f^{-1}(x)) = f(\log_b x) = b^{\log_b x} = x$. Je herkent een inverse functie ook aan de grafiek die het spiegelbeeld is van de originele functie rond de $y=x$ lijn.

Grafiek

Op de grafiek hieronder zie je zowel $f(x) = \log x$ als de inverse $f^{-1}(x) = 10^x$. Ook de $y=x$ rechte is aangegeven. Je ziet inderdaad dat de ene grafiek een spiegeling is dan de andere.

Enkele voorbeeldwaarden (o.a. die van hierboven) zijn op de grafiek aangeduid. Voor de $x$-waarden dicht bij nul is het moeilijk om het onderscheid te maken aangezien $\log x$ een verticale asymptoot heeft bij $x=0$. Opnieuw kan die verklaard worden door de horizontale asymptoot bij $y=0$ van $10^x$. Je kan inderdaad uit die formule nooit exact nul uitkomen, maar voor een heel grote negatieve exponent kom je wel dicht in de buurt:

$$\lim_{x \to -\infty} b^x = \lim_{x \to +\infty} \frac{1}{b^x} = 0$$

Voor grote $x$-waarden groeit de grafiek trager en trager, maar hij vlakt nooit helemaal af. Er is dus geen horizontale asymptoot te vinden.

In [5]:
xs = [0.0000000001, 0.00001, 0.1, 1, 5, 10]
ys = [-10, -5, -1, 0, 0.6990, 1]
In [6]:
xmin, xmax = -10, 10.5
x = np.arange(xmin, log(xmax), 0.01)

fig, (ax1) = plt.subplots(1, 1, figsize=[10, 10])
ax1.set_xlabel('$x$')
ax1.set_ylabel('$y$')
ax1.set_xlim([xmin, xmax])
ax1.set_ylim([xmin, xmax])
ax1.set_xticks(np.arange(xmin, xmax))
ax1.set_yticks(np.arange(xmin, xmax))
ax1.grid(which='both', alpha=0.2)
ax1.plot([xmin, xmax], [xmin, xmax], 'k--', alpha=0.2, label='$y = x$')
ax1.plot(10**x, x, label='$f(x) = \log_{10}(x)$')
ax1.plot(x, 10**x, label='$f^{-1}(x) = 10^x$')
ax1.scatter(xs, ys)
ax1.scatter(ys, xs)
ax1.legend();
No description has been provided for this image

Fun fact

Om het subtiele verschil tussen die kleine $x$-waarden beter in kaart te brengen, zouden we de schaal van de $x$-as kunnen veranderen ($x' = \log x$). Hieronder vind je daar een voorbeeld van. Die grafiek toont nog altijd $\log x$, maar is vanuit dit perspectief een rechte geworden. We tonen nu immers $f(x) = \log x = x'$ en dat is gewoon een rechte door de oorsprong.

In [7]:
xmin, xmax = 0.000001, 10
x = np.arange(xmin, xmax, 0.5)
y = log(x)

fig, (ax1) = plt.subplots(1, 1, figsize=[10, 10])
ax1.set_xlabel('$x$')
ax1.set_ylabel('$\log_{10}(x)$')
ax1.grid(which='both', alpha=0.2)
ax1.semilogx(x, y)
ax1.scatter(xs[1:], ys[1:]);
No description has been provided for this image

Rekenregels

Omdat het resultaat van een logaritme eigenlijk een exponent is, gelden daarvoor ook de rekenregels van exponenten. Je gaat hieronder dus o.a. de tegenhangers vinden van $b^x b^y = b^{x+y}$ en $(b^x)^y = b^{xy}$.

  • $\log_b 1 = 0 \iff b^0 = 1$
  • $\log_b b = 1 \iff b^1 = b$
  • $\log_b b^x = x \iff b^x = b^x$
  • $\log_b xy = \log_b x + \log_b y$
    • maar $\log_b (x+y) \neq \log_b x \cdot \log_b y$
  • $\log_b \frac{x}{y} = \log_b x - \log_b y$
  • $\log_b \frac{1}{x} = -\log_b x$
  • $\log_b (x^y) = y \log_b x$
  • $\log_b x = \dfrac{1}{\log_x b}$
  • verandering van basis $b$ naar $c \in \mathbb{R}_0^+ \setminus \{1\}$
    • $\log_b x = \dfrac{\log_c x}{\log_c b}$
    • $b^x = c^{x\log_c b}$

Zie ook formularium voorkennis

Je kan logaritmes natuurlijk ook laten voor wat ze zijn en doorbijten zonder:

xkcd-1162

Dichtheden

Studenten hebben het vaak moeilijk met het onderscheid tussen de begrippen kans en kansdichtheid. Op het eerste zicht is het verschil tussen een kansmassafuncie en een dichtheidsfunctie niet zo groot. Je gebruikt ze om de verdeling van respectievelijk discrete en continue toevalsvariabelen in kaart te brengen.

Een worp met een eerlijke dobbelsteen is een klassiek voorbeeld van een discreet toevalsexperiment. De kans om te werpen is bijvoorbeeld . Uit kansmassafuncties komen dus gewoon kansen.

heeft dan weer een continue (normale) verdeling met gemiddelde en standaardafwijking . In tegenstelling tot een kansmassafunctie, kan je de bijhorende waarde voor een van , nl. helemaal niet rechtstreeks interpreteren. De kans op een IQ van is dus niet . Sterker nog, , net zoals de kans op eender welke andere mogelijke waarde voor . De intuitie hierachter is dat niemand een IQ heeft dat exact gelijk is aan , maar toch minstens een tikkeltje daarvan afwijkt. Dat is het hele concept van kansdichtheden, je kan enkel iets zinvol zeggen over de kans op waarden binnen een interval, maar niet over één enkele waarde. In het wiskundig vakjargon spreken we dan van een distributie of veralgemeende functie. Zo komen we bij de formule

Een ander punt waarop kansdichtheden verschillen van kansen is dat ze niet noodzakelijk in het interval moeten liggen, ze moeten enkel groter dan of gelijk aan nul zijn. Stel dat de systolische bloeddruk van een patient tussen en ligt en dat alle waarden daarbinnen even waarschijnlijk zijn. Dan krijg je een uniforme kansdichtheid van

Je zou dus intuitief kunnen zeggen dat er een kans van per millimeter kwik is. Voor een interval van breed (bijvoorbeeld of ) is de kans dan . Tot zover zitten al onze kansen en kansdichtheden nog mooi binnen . Als normale mensen (lees: geen dokters) meten wij druk natuurlijk niet in millimeter kwik maar in bar met . Dan liggen onze waarden tussen en is

Zo krijgen we bij wijze van spreken een kans van per bar. Als we dat opnieuw vermenigvuldigen met krijgen we . De eigenlijke kans is exact hetzelfde gebleven, of we de oefening nu in millimeter kwik of in bar maken. Kansen blijven dus steeds in , maar kansdichtheden kunnen afhankelijk van de verdeling en de schaal ook groter dan worden.

Dit klinkt waarschijnlijk allemaal heel nieuw en ongebruikelijk. Nochtans heeft bijna iedereen al wel iets gelijkaardig gezien in het secundair onderwijs. Er is namelijk een analoog concept dat ook eindigt op dichtheid: massadichtheid uit de fysicalessen. Een massadichtheid en een massa is ook niet hetzelfde. Water heeft een massadichtheid van . Dat wil uiteraard niet zeggen dat elke hoeveelheid water weegt. Je moet het altijd in de context van een bepaald volume bekijken. Voor een massadichtheid die niet verandert doorheen het volume (dus , vergelijkbaar met onze uniforme kansdichtheid van hierboven) is de formule dan heel simpel:

Als de massadichtheid wel verandert in functie van de positie in het volume, heb je een iets complexere formule nodig die conceptueel wel exact hetzelfde uitdrukt:

waarbij . Die formule heeft exact dezelfde vorm als diegene die je nodig hebt om een kans met drie variabelen uit te rekenen:

Zoals gewoonlijk is het stiekem allemaal één pot nat.

Trapezium

Op het examen ga je waarschijnlijk voor één van de vragen de oppervlakte onder een curve moeten berekenen. Wie niet graag met integralen goochelt, geraakt er meestal ook wel door die oppervlakte op te kappen in rechthoeken, driehoeken en - af en toe - trapezia. Iedereen heeft in het lager onderwijs wel uitgebreid over die vlakke figuren geleerd, maar in het secundair komen trapezia niet vaak meer terug. Bij deze dus een korte opfrisser.

Een trapezium is een convexe vierhoek met minstens 1 paar evenwijdige zijden. De kortste van die twee noemen we de kleine basis en de andere noemen we de grote basis . Daarnaast hebben we nog de hoogte die we loodrecht op beide basissen meten. Waarschijnlijk denk je in de eerste plaats aan de gele figuur hieronder, maar de twee andere figuren zijn evengoed trapezia.

trapezia

Op basis van deze definitie is elke parallellogram (incl. elke rechhoek en elke ruit) ook een trapezium.

Oppervlakte

Je kan elke trapezium opdelen in een rechthoek en eventueel een rechthoekige driehoek per zijkant. Je hoeft dus niet per se de formule voor de oppervlakte van een trapezium vanbuiten te leren, want je kan gewoon de som van de oppervlaktes van die rechthoek en driehoek(en) berekenen. Anderzijds is de formule ook niet zo moeilijk, en alles wat tijd kan besparen op het examen is meer dan welkom.

De oppervlakte van een trapezium is . Nu weten we wat we moeten weten, dus zouden we hier kunnen afsluiten. Of... we kunnen nog wat dieper graven. We hebben bijvoorbeeld gezegd dat elke rechthoek ook een trapezium is. De oppervlakte formules voor beide zouden dus consistent moeten zijn. Anders gezegd:

met de basis en de hoogte van de rechthoek. De hoogte van beide meten we op dezelfde manier () dus kunnen we vereenvoudigen tot

Voor een rechthoek geldt , dus de formules zijn inderdaad mooi consistent. Wat nog interessanter is, is dat we nu een nieuwe manier hebben om de term te interpreteren. Als we onze statistische bril opzetten, zien we dat hier een gemiddelde berekend wordt. Je zou de formule voor de oppervlakte van een trapezium dus ook kunnen lezen als met het gemiddelde van de grote en de kleine basis. Nu is het direct overduidelijk dat de formule consistent is met die van een rechthoek, want in dat geval is .

Volume

Als de prof een stapje verder wil gaan, kan hij dezelfde soort vraagen stellen maar dan voor een bivariate verdeling . Dan krijg je een 3D grafiek en moet je volumes berekenen in plaats van oppervlaktes. Meestal kan je hier de vuisregel oppervlakte grondvlak maal hoogte toepassen. Voor een 3D trapezium (een soort prisma) krijg je dan . Verwar deze nieuwe hoogte niet met de originele hoogte in 2D. Je zou ook de diepte kunnen noemen als dat het duidelijker maakt.

Formule vergeten?

Door de stress op het examen gebeurt het wel eens dat je begint te twijfelen over een bepaalde formule. Was het bijvoorbeeld of toch ? Als je een beetje intuitie hebt voor logaritmes zie je waarschijnlijk direct welke optie juist is. Maar zelfs als je dat inzicht mist, is het geen verloren zaak. Probeer gewoon beide formules kort uit met eenvoudige cijfers.

Als we de eerste regel volgen, krijgen we voor

Dit kan kloppen indien . Als je uitrekent met je rekentoestel krijg je echter een foutmelding. Dat ziet er dus niet goed uit. De tweede formule ziet er daardoor al een pak meer waarschijnlijk uit. Als we die testen met krijgen we

We vinden dat (want ), dus dat klopt helemaal.

Deze manier van werken geeft natuurlijk geen sluitend bewijs dat de formules correct zijn, maar dat hoeft in deze situatie ook niet. Als je enkel twijfelt tussen twee opties, kan je zo gemakkelijk de juiste keuze maken.

Dit voorbeeld ging over logaritmes, maar de techniek is natuurlijk veel breder toepasbaar wanneer je twijfelt tussen twee of meer versies van een formule. Een andere klassieker is de chiastische eigenschap waarbij je twijfelt tussen en . Van zodra je iets kan bewijzen uit een formule dat duidelijk scheef zit (in dit geval: als de variantie negatief is), weet je dan de formule waar je van vertrok ook incorrect is.

Formularium

Ook al mag je geen formularium meenemen naar het examen van statistiek 1, toch is het een goed idee om er zo snel mogelijk zelf één te maken. De formules in de cursus staan te veel verspeid en niet altijd even duidelijk aangegeven tussen de rest van de tekst. Op die manier duurt het lang om de juiste formule te vinden en kan je niet het maximale uit de contactmomenten halen.

Een goed formularium is zelfgemaakt, handgeschreven, gepersonaliseerd, gestructureerd en geversioneerd.

Zelfgemaakt

Er circuleren genoeg formularia van andere studenten zodat je waarschijnlijk niet echt de nood voelt om er zelf één op te stellen. Diegenen die ik gezien heb blinken helaas niet uit in correctheid en volledigheid. Los daarvan is het een heel goede oefening om zelf aan de slag te gaan. Als je aandacht besteedt aan alle onderstaande aspecten, is het opstellen een enorm leerrijke activiteit. Achteraf is de kans klein dat je nog echt zal moeten blokken om de formules van buiten te kennen. Als je er genoeg mee bezig bent geweest, zitten ze automatisch in je geheugen.

The summary is not for you to read, it is for you to write.

Handgeschreven

Over geheugen gesproken, als goede psychologen weten we dat we gemakkelijker notities onthouden die we met de hand uitgeschreven hebben dan notities die we getypt hebben (bron). Wiskundige formules uittypen op een computer gaat sowieso niet erg vlot zonder gespecialiseerde software, dus die tijd kan je waarschijnlijk nuttiger besteden.

Gepersonaliseerd

Een andere reden waarom je best niet gewoon een bestaand formularium overneemt, is omdat je een formularium kan personaliseren. Je kan bijvoorbeeld extra formules in het kader van ontbrekende voorkennis opnemen, maar niet iedereen heeft het even moeilijk met elk stuk voorkennis. Voor sommigen zitten de formules rond logaritmes heel ver weg, en voor anderen zijn ze te vanzelfsprekend om neer te schrijven. Hetzelfde geldt voor de inhoud van de cursus zelf: na een tijdje ga je de formules rond gemiddeldes niet meer moeten opnemen omdat je die al lang vanbuiten kent.

Gestructureerd

Een andere manier van personaliseren is het aanbrengen van een structuur die voor jou logisch is. Bijna iedereen maakt een chronologisch formularium waarbij ze gewoon de formules oplijsten in dezelfde volgorde als ze in de cursus voorkomen. Op deze website vind je daar voorbeelden van. Iedereen die een klein beetje heeft opgelet bij statistiek 1, weet nochtans wel dat er heel wat symmetrieën in die cursus te vinden zijn tussen het beschrijvende en inductieve luik. Een goed formularium is rond diezelfde symmetrieën gestructureerd. Binnen beschrijvende statistiek kan je formules vaak nog verder opdelen in een deel rond frequenties en een deel rond proporties. Bij inductieve statistiek is de meest relevante opdeling dan weer eerder discreet tegenover continu. Zo krijg je twee tot vier kolommen waarin per rij de formules sterk gerelateerd zijn. Voorbeeld:

Beschrijvend Inductief
Beschrijvend (frequenties) Beschrijvend (proporties) Inductief (discreet) Inductief (continu)

Zo zie je in één oogopslag waar de gelijkenissen zitten, en waar de verschilpuntjes. Sommige formules hebben helemaal geen tegenhanger. Dan kan je je de vraag stellen of de professor die formules gewoon vergeten is, of dat het effectief niet mogelijk is om de vertaalslag te maken. Beide situaties komen regelmatig voor in statistiek 1. Die soort vragen (en de antwoorden daarop) geven je een dieper inzicht in de leerstof.

Geversioneerd

Een perfect formularium maken dat aan al deze regels voldoet is niet eenvoudig. Ik zit op dit moment aan versie 80 van mijn formularium, dus ga er niet van uit dat je dit van de eerste keer goed zal hebben. Met Tipp-Ex geraak je al een eind, maar af en toe ga je toch helemaal opnieuw moeten beginnen. Meerdere versies maken is dus best veel werk, maar het is een goede tijdsinvestering.

Rekenen met procenten

Rekenen met percentages (of proporties) is één van de dingen die je voor statistiek goed onder de knie moet hebben. De algemene regel ken je wellicht nog wel.

Zorg dat je goed begrijpt waarom een getal met verhogen, en dan die uitkomst met verlagen niet terug het originele getal geeft. Met de typische notatie is het verleidelijk om tot dat besluit te komen. Wiskundig gezien zijn percentages echter vermenigvuldigingen en geen sommen: . De reden hierachter is dat je de tweede keer het percentage neemt van een groter getal dan de eerste keer. Als het tweede percentage wel neemt van het originele getal klopt de vergelijking wel: . Het is dus erg belangrijk om in het achterhoofd te houden waar je precies het percentage op toepast.

Algemene formule voor het berekenen van percentages van een getal :

Zie ook: https://nl.wikipedia.org/wiki/Aardappelparadox

Ander aandachtspunt: procenten tegenover procentpunten. Als je bijvoorbeeld vertrekt van , en je verhoogt dat met procentpunten, dan kom je uit op . Verhoog je met dan kom je uit op .

Tot slot: zowel procent als percent is correct Nederlands.

Hoofd- en bijzaken statistiek 1

Niet elk deel van de cursus is even relevant. Hieronder staat per hoofdstuk aangegeven hoe relevant het is met het oog op het examen.

  • ▱▱▱ 0.1 Objectieven
  • ▰▰▱ 0.2 Verzamelingenleer
    • Gegarandeerd één examenvraag over dit kleine stukje leerstof.
    • Verder niet erg relevant.
  • ▰▱▱ I.0 Conceptueel kader
  • ▰▰▰ I.1 Beschrijvende statistiek, univariaat
  • ▰▰▰ I.2 Beschrijvende statistiek, bivariaat
    • Optimale voorspelling is één van de favoriete onderwerpen van de prof.
  • ▰▰▱ I.3 Beschrijvende statistiek, multivariaat
  • ▰▱▱ II.0.1 Populatie en steekproef
  • ▰▱▱ II.0.2 Toevalsexperiment
  • ▰▱▱ II.0.3 Uitkomsten
    • Theoretisch gegoochel met is slechts achtergrondinfo.
  • ▰▱▱ II.0.4 Toevalsvariabelen
  • ▰▱▱ II.0.5 Gebeurtenis
  • ▰▰▱ II.0.6 Kansrekenen en combinatoriek
    • Gegarandeerd een tweetal examenvragen.
    • Eenvoudigere toepassingen in andere vragen.
  • ▰▱▱ II.0.7 Populatiekarakteristieken
  • ▰▰▰ II.1 Inductieve statistiek, univariaat
    • Het deel over Riemannsommen met op blz. 152-154 (tot halverwege de pagina) en 158-160 is minder relevant.
  • ▰▰▰ II.2 Inductieve statistiek, bivariaat
  • ▰▰▱ II.3 Steekproef-populatie
    • Voorproefje van statistiek 2 met veel irrelevante theoretische achtergrond.
    • Essentie: definitie en eigenschappen van en concept iid.
  • ▰▱▱ A1 Grieks alfabet
  • ▰▱▱ A2 Termen en symbolen
    • Herhaling, niets nieuw.
  • ▰▱▱ A3 Datasets
  • ▰▰▰ A4 Sommatieteken
    • Dit heb je nodig voor de bewijzen op het examen.
  • ▰▰▰ A5 Rekenmachine
    • Vlot werken met je rekentoestel is een vaardigheid die je moet trainen tot je dit snel en bijna blindelings kan.
  • ▰▰▰ A6 Notatie en afronding
  • ▱▱▱ A7 Rijen en reeksen
  • ▰▰▰ A8 Voorbeeldexamen
  • ▰▰▰ A9 Uitkomsten