Slaagcijfers

De slaagcijfers worden niet publiek bekendgemaakt, maar ze worden doorgaans wel in de permanente onderwijscommissie (POC) van de opleiding besproken. Jullie studentenvertegenwoordigers zijn op die vergaderingen aanwezig en kennen de cijfers dus.

Wie een beetje handig is en wat geduld heeft kan zelf een schatting maken van het slaagpercentage. Na elk academiejaar (doorgaans vanaf eind september) kan je in je studievoortgangsdossier terugvinden wat de scoreverdeling was voor elk vak over de afgelopen drie jaar. Zo weet je hoeveel studenten geslaagd zijn met een 10 of meer. Deze cijfers zijn inclusief tweede examenkansen, maar exclusief eventuele toleraties voor mensen van 8 of 9/20. Dit zijn de resultaten van de afgelopen jaren:

  • 2017-2020 geslaagd
    • statistiek 1: 673
    • statistiek 2: 724
    • statistiek 3: ?
  • 2018-2021 geslaagd
    • statistiek 1: 705
    • statistiek 2: 741
    • statistiek 3: 761

Om het onszelf gemakkelijk te maken, delen we deze aantallen gewoon door drie om tot een schatting van het aantal geslaagden per jaar te komen. We maken hier impliciet de assumptie dat er elk jaar evenveel studenten het examen afleggen en de slaagpercentages over de jaren heen constant zijn. De KU Leuven maakt cijfers over studentenaantallen wel publiek, dus wie zin heeft mag zeker eens dubbelchecken of we hier niet te fel uit de bocht gaan.

Nu we weten hoeveel studenten geslaagd zijn, moeten we weten hoeveel studenten met het examen hebben meegedaan. Die cijfers hebben we niet, maar we kunnen via Toledo wel nagaan hoeveel studenten voor het vak zijn ingeschreven. Dat is een overschatting van het aantal deelnemers van het examen omdat een aantal studenten vroegtijdig afhaken. De eigenlijke slaagkans voor studenten die meedoen zal dus hoger liggen dan wat we hieronder berekenen. Merk ook op dat bissers mee in deze aantallen zitten. Er zitten volgens de ECTS fiche van het vak trouwens niet enkel psychologiestudenten in deze groep, maar ook studenten wijsbegeerte en studenten uit het schakelprogramma. We kunnen dus enkel de kans berekenen dat iemand die zich heeft ingeschreven voor het vak zal slagen, zonder rekening te houden met specifieke eigenschappen van die persoon (eerstejaars, bisser, ...).

  • 2020-2021 inschrijvingen per vak
    • statistiek 1: 1118
    • statistiek 2: 614
    • statistiek 3: 333

Op basis van al deze info kunnen we voor de drie statistiekvakken een schatting berekenen van het slaagpercentage voor academiejaar 2020-2021.

  • statistiek 1:
  • statistiek 2:
  • statistiek 3:

Er kwamen veel ifs and buts aan te pas, maar nu hebben we tenminste een concreet cijfer. Wie zin heeft kan deze oefening gemakkelijk elk jaar opnieuw herhalen om te checken of de slaagpercentages opnieuw in dezelfde lijn liggen.

Merk op dat de slaagpercentages dramatisch stijgen voor de opeenvolgende vakken. Deels is dat te verklaren door de verlaagde moeilijkheidsgraad, maar ook deels door het feit dat de minder goede studenten in de latere jaren afgevallen zijn.

Voorkennis

Qua voorkennis wiskunde stelt Statistiek voor Psychologen geen al te hoge eisen. Onderwerpen uit de derde graad (o.a. rijen en reeksen, limieten, afleiden en integralen) moet je hooguit oppervlakkig kennen om te kunnen volgen. De prof verwacht ook niet dat je statistiek en kansrekenen eerder gezien hebt in het middelbaar, al is dat natuurlijk wel mooi meegenomen.

Onderwerpen uit de lagere graden (o.a. breuken, distributiviteit, merkwaardige producten en lineaire vergelijkingen) zijn uiteraard wel onontbeerlijk om statistiek tot een goed einde te brengen. Ik heb het gevoel dat veel studenten zichzelf overschatten op dat vlak. De bezoekersaantallen van de zelftests op deze website bevestigen dat voor een stuk: studenten vliegen direct in de multiple choice vragen over statistiek 1 en laten de voorkennisvragen links liggen. De enkelingen die zich daar toch aan wagen, merken vaak al snel dat het toch niet zo vlot gaat als ze zouden willen. Bij deze dus een oproep: denk kritisch na over jouw eigen voorkennis. Nog belangrijker: schiet in actie als je merkt dat er toch iets scheelt. Herhaal bijvoorbeeld opnieuw jouw studiemateriaal uit het middelbaar, of duik eens in de literatuurlijst met nuttige boeken rond voorkennis die de prof elk jaar op Toledo publiceert. In deze vraag van de FAQ staan enkele nuttige links om je voorkennis verder bij te spijkeren.

Om te weten wat wel en niet relevant is om te herhalen, kan je de aanduidingen in het formularium voorkennis volgen.

Kwantielen

Het leven van een academicus bestaat erin om gemakkelijke dingen moeilijk te maken. Kwantielen zijn daar een mooi voorbeeld van. Je wordt overladen met allerlei technische definities en formules die op zich wel een bestaansreden hebben, maar die compleet voorbij gaan aan de essentie van de zaak. Het is daarbij vooral ongelukkig dat in de cursus statistiek 1 kwantielen eerst worden besproken in de context van beschrijvende statistiek. In de context van inductieve statistiek, en dan in het bijzonder in het geval van continue verdelingsfuncties, is het concept veel gemakkelijker te begrijpen. Eens je weet waar het over gaat, kan je ook beter plaatsen waarom al die ingewikkelde extra's toch nodig zijn eens je over discrete verdelingen begint te praten.

Kwantielen voor continue verdelingsfuncties

Je hebt wellicht al wel ergens opgevangen dat het IQ van een populatie vaak theoretisch voorgesteld wordt met een normale verdeling met gemiddelde $\mu_{IQ} = 100$ en een standaardafwijking $\sigma_{IQ} = 15$. Dat is een voorbeeld van een continue verdelingsfunctie. Er zijn veel mensen die een IQ dicht bij $100$ hebben, terwijl de extremen in beide richtingen (heel domme of heel slimme mensen) steeds zeldzamer worden. Aangezien een normale verdeling symmetrisch is, zijn er evenveel mensen met een IQ boven 100 als met een IQ kleiner dan 100. Symbolisch: $P(IQ < 100) = \Phi_{IQ}(100) = 0.50 = P(IQ > 100)$. De twee groepen samen vormen heel de populatie ($100\%$), dus het is logisch dat ze elk apart $50\%$ van de populatie vertegenwoordigen.

Als je je voor een IQ van $90$ dezelfde vraag stelt, wordt het al iets moeilijker. In statistische tabellen kunnen we terugvinden dat $P(IQ \leq 90) = \Phi_{IQ}(90) \approx 0.25$. Een kwart van de bevolking heeft dus een IQ kleiner dan of gelijk aan $90$. Zo kunnen we voor elk IQ-niveau bepalen hoeveel procent van de bevolking een IQ onder dat niveau heeft.

Een kwantiel is in deze context gewoon die vraag, maar dan omgekeerd gesteld. Wat is het IQ-niveau waar $25\%$ van de populatie onder ligt? Anders gezegd: hoe hoog moet je IQ zijn om net slimmer te zijn dan de domste $25\%$ van de populatie? Symbolisch: $iq_{0.25}^* = 90$ want $\Phi_{IQ}(90) = 0.25$. Wiskundig kan je dat noteren met een inverse functie: $iq_r^* = \Phi_{IQ}^{-1}(r)$. Op een grafiek moet je in dat geval niet van de $x$-as vertrekken en dan de bijhorende $y$-waarde aflezen maar andersom: de $x$-waarde aflezen die bij een bepaalde $y$-waarde hoort.

Dit verhaal wordt hieronder grafisch weergegeven. De code zelf dient enkel om de grafiek op te stellen en mag je uiteraard negeren. Heel dit verhaal is opgebouwd rond IQ, maar is op net dezelfde manier van toepassing op eender welke andere continu verdeelde toevalsvariabele.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import ConnectionPatch
from scipy.stats import norm
plt.style.use('fivethirtyeight')
In [3]:
mu = 100
sigma = 15
xmin = norm.ppf(0.001, mu, sigma)
xmax = norm.ppf(0.999, mu, sigma)
In [4]:
x0 = 90
p = norm.cdf(x0, mu, sigma)
In [9]:
fig, [ax, ax2] = plt.subplots(2, 1, figsize=(9,6), sharex=True)
ax.set_title('IQ verdeling')
ax.set_xlim([xmin, xmax])
ax.set_ylabel(r'$\varphi_{IQ}$')
ax2.set_xlabel('$IQ$')
ax2.set_ylabel(r'$\Phi_{IQ}$')

x_all = np.arange(xmin, xmax, 0.01)
y_all = norm.pdf(x_all, mu, sigma)
ax.plot(x_all, y_all)

x = np.arange(xmin, x0, 0.01)
y = norm.pdf(x, mu, sigma)
ax.fill_between(x, y, alpha=0.3)
ax.text(x0, 0.01, f"$iq_{{{p:.2f}}}^* = {x0}$")

x_all = np.arange(xmin, xmax, 0.01)
y_all = norm.cdf(x_all, mu, sigma)
ax2.plot(x_all, y_all, alpha=0.3)

x = np.arange(xmin, x0, 0.01)
y = norm.cdf(x, mu, sigma)
ax2.plot([xmin, x0], [p, p], 'k--', linewidth=2)

con = ConnectionPatch(xyA=(x0, 0), xyB=(x0, ax.get_ylim()[1]), coordsA="data", coordsB="data", 
                      axesA=ax2, axesB=ax, linestyle="--", linewidth=2, color="k")
ax2.add_artist(con);
No description has been provided for this image

Kwantielen voor discrete verdelingsfuncties

Kwantielen zijn op zich dus zeker geen moeilijk concept. Je moet gewoon de grafiek van $\Phi_{IQ}$ omgekeerd lezen. Helaas valt heel ons verhaal in duigen als we met discrete verdelingsfuncties zitten. Dan krijg je getrapte grafieken waar bij één $y$-waarde vaak meerdere $x$-waarden horen ("geval 2"). Bij andere $y$-waarden horen dan weer helemaal geen $x$-waarden ("geval 1"). Dan komt het er op neer om praktische afspraken te maken zodat je in beide situaties toch één uniek kwantiel kan bekomen. Op dat vlak is er niet zoiets als "de juiste" of "de beste" manier. In veel statistische programma's (o.a. SPSS, R, SAS of SciPy zoals hierboven) zitten vijf of meer verschillende manieren ingebouwd om een kwantiel te berekenen die dus alle vrijf een andere uitkomst kunnen geven voor dezelfde gegevens. Ironisch genoeg is de prof extra creatief geweest met zijn definities in de cursus, want die komen voor zover ik weet in geen enkel statistisch programma voor. Dat is ook de reden waarom je de waardes van $Q_1$ en $Q_3$ uit je rekentoestel niet mag gebruiken. Die gebruiken achterliggend ook een andere formule dan diegene die we in de cursus gebruiken.

Tot slot: boodschap van algemeen nut. Een kwantiel en een kwartiel zijn twee verschillende zaken. Meer specifiek: elk kwartiel is ook een kwantiel, maar niet elk kwantiel is een kwartiel. Goed uit elkaar houden.

Achtergrondinfo

Structuur van oefeningen

A problem well stated is a problem half solved

In het secundair onderwijs leren we allemaal om onze wiskunde en fysica oefeningen te structureren volgens een bepaald patroon. Voor oefeningen is dat vaak gegeven-gevraagd-oplossing. Voor bewijzen is het eerder gegeven-te bewijzen-bewijs. Afhankelijk van jouw vooropleiding heb je daar meer of minder exotische afkortingen voor aangeleerd gekregen. In het hoger onderwijs is deze structuur vreemd genoeg een pak minder populair en sowieso niet verplicht, maar voor statistiek kan het zeker een meerwaarde zijn.

Voor veel studenten is de vertaalslag van een vraagstuk in wiskundige symbolen een grote uitdaging. Door je oefeningen op deze manier te structureren, dwing je jezelf om die stap eerst te zetten. Door dit consistent te doen, krijg je hopelijk een beter zicht op de goede en minder goede manieren om zo'n vertaalslag te maken. Zonder structuur gebeurt de vertaling gefragmenteerd doorheen de oefening, wat het moeilijker maakt om dat in één oogopslag te zien. De modeloplossingen maken het op dat vlak niet altijd eenvoudig.

Eens je een opgave in symbolen hebt, is de oplossing vinden vaak niet zo heel moeilijk meer. In het middelbaar was het bij fysica bijvoorbeeld vaak een kwestie van op het formularium te kijken in welke formule je al je gegevens kwijt kon. In het hoger onderwijs zou het natuurlijk beter zijn als je voldoende inzicht hebt om spontaan te weten welke formule je nodig hebt, maar het blijft een goede techniek in noodgevallen. (Kanttekening: voor statistiek 1 krijg je geen formularium op papier, maar ik ga er van uit dat je dat grotendeels in je hoofd hebt zitten.) Dan moet je enkel nog opletten voor overbodige gegevens. Daar is de prof zeker niet vies van.

Deze structuur moedigt ook aan om niet te snel concrete waardes in te vullen in formules doordat je een beter overzicht hebt van welke waarde op welk moment al bekend is. Als je in een tussenstap factoren kan schrappen in teller en noemer, zal dat ook veel beter op te merken zijn in symboolvorm dan in getalvorm. Bonus: het doet je nadenken waarom de factor die je schrapt geen invloed heeft op het eindresultaat. Je maakt zo ook minder afrondingsfouten.

Bewijzen

Op het examen van Statistiek voor psychologen 1 worden gegarandeerd één à twee ongeziene bewijzen gevraagd. Als je daar goed op oefent, kunnen dat gratis punten zijn. Helaas gaan veel studenten hier toch de mist in. Het feit dat het ongeziene bewijzen zijn, wil niet zeggen dat het zinloos is om de bewijzen in de cursus (opnieuw) te maken. In tegendeel: stellingen bewijzen is een wiskundige vaardigheid die je moet trainen net zoals het maken van oefeningen. Daar zijn de bewijzen in de cursus uitermate geschikt voor. In dit artikel bekijken we hoe je examenvragen rond bewijzen best aanpakt.

Kanttekening: mijn wiskunde leerkracht uit het secundair onderwijs merkte ooit op dat haar leerlingen veel beter scoorden op toetsen met een bewijs als ze de vraag begon met "toon aan dat ..." i.p.v. "bewijs dat ...". We hebben blijkbaar allemaal trauma's overgehouden aan bewijzen uit het middelbaar, maar als we een oefening niet labelen als "bewijs" gaat het plots veel vlotter. In die zin is het nuttig om te beseffen dan de bewijzen op het examen statistiek ook vrij weinig weg hebben van klassieke wiskundige bewijzen, maar eerder een test zijn om te zien of je de basisregels rond algebra en sommatietekens goed onder de knie hebt. Beeld je dus gerust in dat er op het examen staat "werk uit" of "vereenvoudig" in plaats van "bewijs".

Logica en bewijstheorie

Dit deel is eerder achtergrondinformatie, maar je doet er goed aan het toch minstens één keer gelezen te hebben.

Bewijstheorie is een onderdeel van wiskundige logica waar veel studenten (o.a. uit wiskunde, fysica, informatica en filosofie) zich expliciet in moeten verdiepen. De gemiddelde leerling uit het middelbaar komt hier echter maar beperkt mee in aanraking. Je hoeft hier zeker geen expert in te worden om bewijzen op het examen statistiek te kunnen oplossen, maar de basisregels onder de knie hebben is wel noodzakelijk. Als je ooit de symbolen of gebruikt hebt, ken je al een beetje van logica.

De cursus statistiek 1 bestaat uit twee grote delen, beschrijvende en inductieve statistiek. Het woord inductie is een begrip dat van oorsprong uit de logica komt. Het is de tegenhanger van deductie. Bij deductie vertrek je van een algemene regel (bijvoorbeeld "het sneeuwt hier elke winter") waaruit je dan een meer specifieke regel kan afleiden: "het heeft hier gesneeuwd in de winter van 2005". Als de algemene regel waar is, zal de specifieke regel ook waar zijn. Bij inductie doe je het omgekeerde. Als het bijvoorbeeld in alle winters tussen 2000 en 2020 hier gesneeuwd heeft, zou je er van uit kunnen gaan dat het hier elke winter sneeuwt. Je gaat dan van specifiek naar algemeen (of in statistische termen van steekproef naar populatie).

Binnen logica denken we doorgaans in termen van waar of vals, heel zwart-wit dus zonder enig grijs daartussen. Bepaalde woorden zoals en, of, niet en als-dan hebben heel specifieke betekenissen net als plus en maal in de klassieke wiskunde. Een als-dan stelling noemen we een implicatie en stellen we voor met een teken. Opgelet: het is niet omdat geldt, dat automatisch ook opgaat. Voorbeeld: , maar het omgekeerde gaat niet op voor elke .

Sommige regels zijn wel in twee richtingen bruikbaar: en . Dat kunnen we verkort schrijven met een "als en slechts als" pijl: .

In deze context wordt wel eens gesproken over noodzakelijke en voldoende voorwaarden. Voor de stelling is een voldoende voorwaarde. Als die voorwaarde waar is, is zeker ook waar. Een voldoende voorwaarde komt dus overeen met onze eerdere definitie van een implicatie. is echter geen noodzakelijke voorwaarde want er zijn genoeg getallen te vinden waarvoor vals is en toch waar is. Zo is maar . Als we de omgekeerde richting bestuderen () is wel een noodzakelijke voorwaarde. Als dat niet waar is, zal ook nooit waar zijn. Het is helaas geen voldoende voorwaarde zoals we hierboven gezien hebben. De stelling in zijn geheel is dus vals. Idealiter hebben we een voorwaarde die perfect matcht met wat we moeten bewijzen, maar een noodzakelijke voorwaarde is vaak niet streng genoeg en een voldoende voorwaarde is vaak te streng. Een noodzakelijke én voldoende voorwaarde legt de lat niet te laag maar ook niet te hoog waardoor de twee uitspraken inwisselbaar worden. is daar een mooi voorbeeld van.

In de meetkunde vinden we gemakkelijk extra voorbeelden rond nodige en voldoende voorwaarden. Aangezien elk vierkant ook een rechthoek is, is "vierkant zijn" een voldoende voorwaarde voor "rechthoek zijn". Andersom is "rechthoek zijn" een nodige voorwaarde voor "vierkant zijn".

Opletten met negaties

De negatie van een stelling (ook wel "niet " genoemd, of in symbolen) verandert elke waar in vals en andersom. Na een dubbele negatie kom je terug uit bij het origineel: is opnieuw . De negatie is nauw verwant met het complement uit verzamelingenleer: .

Venndiagram ongelijkheden

Soms zijn negaties eenvoudig. is de negatie van . Andere keren moet je al iets verder nadenken. De negatie van is niet maar wel . Anders zouden beide stellingen vals zijn voor en de bedoeling bij negaties is net dat ze bij de ene waar zijn en bij de andere vals of omgekeerd. Volgens dezelfde redenering is de negatie van gelijk aan en vice versa. Dit inzicht ga je niet nodig hebben voor bewijzen op het examen, maar wel op veel andere plaatsen in de cursus.

Voor stellingen van de vorm is het verhaal nog minder eenvoudig. De negatie daarvan is niet zomaar .

Nog een opmerkelijke vaststelling: de negatie van een stelling van de vorm is gelijk aan . Dat heeft belangrijke gevolgen...

Aanvallen is gemakkelijker dan verdedigen

Als we voor een stelling één kunnen vinden waarvoor waar is en vals, hebben we een contradictie gevonden. Dan is onmiddelijk bewezen dat de stelling niet waar is. De aanval is succesvol.

Als we vermoeden dat de stelling waar is (zoals typisch op het examen) moeten we ze verdedigen tegen elke mogelijke aanval. Het is dus niet voldoende om één te vinden waarvoor zowel en waar zijn (een zgn. anekdotisch bewijs), want dat sluit niet uit dat iemand anders een andere vindt waarvoor waar is en vals en zo toch onze stelling kan aanvallen. We moeten al onze fronten verdedigen en aantonen dat voor elke mogelijk denkbare onze stelling geldig is.

Toegepast op het voorbeeld hierboven: bij is en . Dat is een goed begin, maar niet genoeg om de hele stelling te bewijzen. Bij is en . Dat is een tegenvoorbeeld voor , waardoor deze stelling ontkracht is.

Bewijzen dat iets niet waar is, is dus veel gemakkelijker dan bewijzen dat iets waar is. Daarom is het soms een goed idee om de negatie van de originele stelling te proberen ontkrachten (en zo onrechtstreeks de originele stelling te bewijzen) door een tegenvoorbeeld te vinden. Dat noemt men een bewijs uit het ongerijmde.

Bewijzen op het examen

Op het examen statistiek heb je geen anekdotisch bewijs nodig, en ook geen bewijs uit het ongerijmde. Je moet typisch een direct of constructief bewijs vinden voor een stelling van de vorm met het linkerlid en het rechterlid van de vergelijking. Je kan daarvoor verschillende strategieen hanteren. Je kan van links beginnen en verder uitwerken met de hoop dat je vroeg of laat bij uit komt: . Je mag ook hetzelfde doen, maar dan vanaf rechts: . Soms is het niet zo eenvoudig, en moet je van de twee kanten tegelijk werken:

Door te bewijzen dat je de twee kanten naar tussenoplossing kan uitwerken, heb je bewezen dat en dus dat .

De moeilijkheidsgraad van de bewijzen is beperkt in de zin dat je nooit uit het niets termen, factoren, functies of wat dan ook uit je hoge hoed moet toveren om verder te geraken. Je moet enkel de formules die gegeven zijn zo ver mogelijk uitwerken aan de hand van de definities en eigenschappen die je in de cursus gezien hebt.

Op basis van reconstructies weten we ook dat bewijzen op het examen meestal in vijf à tien stappen op te lossen zijn. Zoek het dus zeker niet te ver.

Gereedschapskist

Welke tools moet je zoal bij de hand houden terwijl je de leden van de vergelijking uitwerkt? Uit reconstructies van oude examens weten we dat bepaalde aspecten heel vaak terugkomen:

  • basisregels algebra (volgorde bewerkingen, breuken, machten, ...)
    • hier wordt zorgwekkend veel tegen gezondigd
  • rekenregels sommatieteken
    • vooral de eerste drie eigenschappen van appendix 4 komen vaak terug
    • dubbele sommen zijn eerder uitzonderlijk
  • merkwaardige producten
  • definitie Z-transformatie
  • definities en eigenschappen (co)variantie, correlatie, ...
  • rekenregels lineaire transformaties
  • rekenregels somvariabelen
  • i.i.d. voorwaarde omzetten in formules
    • onafhankelijk
    • identiek verdeeld
    • gecombineerd

Daarnaast komen eigenschappen van Z-transformaties vaak terug als onderdeel van het bewijs. Je kent uiteraard de klassiekers: en . Daardoor weet je ook dat . Iets minder voor de hand liggend zijn de eigenschappen en . Deze eigenschappen staan niet in de cursus maar zijn relatief eenvoudig te bewijzen (oefening). Op het examen mag je die eigenschap dus niet direct toepassen. Je moet het bewijs hiervan integreren in het groter bewijs waar je aan werkt. Desondanks is het heel handig om te weten waar je zou moeten uitkomen. Tot slot weten we hierdoor ook dat .

Stel dat je moet bewijzen dat . De term tussen haakjes kan je uitwerken als merkwaardig product: . De tweede term is en voor de derde term kan je bewijzen dat die gelijk is aan . Zo bekomen we .

Definities vs eigenschappen

Soms vraagt de prof expliciet om een stelling te bewijzen o.b.v. een bepaalde definitie. Dit doet hij wellicht omdat er een gemakkelijkere manier (vaak zonder gegoochel met sommatietekens) is om de stelling te bewijzen m.b.v. eigenschappen die we in de cursus gezien hebben. Hij wil dat je de moeilijke weg volgt. Zorg dus dat je goed weet welke formule een definitie is, en welke een eigenschap of rekenregel.

Verantwoording

Vergeet niet bij elke stap die je zet een verantwoording te schrijven. Een correct bewijs zonder goede verantwoording wordt fout gerekend. Studenten durven in mijn ervaring wel eens ✨creatieve momentjes✨ hebben waarbij ze wat kort door de bocht gaan om hun bewijs rond te krijgen. Hieronder vind je daar een mooi voorbeeld van. Zo moet het dus niet. Zorg dat je altijd goed weet welke regel je toepast en waarom die regel in die situatie van toepassing is.

Stel dat en dat . Bewijs dan dat .

  • (definitie)
  • ()
  • ( binnenbrengen)

Nogmaals: dit is fout. Er is geen enkele wiskunderegel die je toelaat om "1 binnen te brengen". Probeer zelf met wat je net geleerd hebt het juiste bewijs te vinden.

Conclusie

Je hebt geen ingewikkelde formules nodig om deze bewijzen te vinden. Met wat je geleerd hebt in de wiskundeles tot en met het derde middelbaar kom je al heel ver. Met bovenstaande tips en tricks in je achterhoofd komt het hopelijk helemaal goed!

Optimale voorspelling - coefficienten

Bij optimale lineaire voorspelling hebben we een statistisch model van de vorm met volgende waarden voor de coefficienten:

Deze formules kunnen worden afgeleid uit door de Z-transformaties uit te schrijven en de vergelijking vervolgens uit te werken naar . In dit artikel wil ik niet zozeer focussen op de algebraische uitwerking, maar wel op het intuitief begrip van deze formules. Zorg dat je eerstegraadsfuncties (leerstof derde middelbaar) goed onder de knie hebt voor je verder leest.

Intercept

De eerste formule is de gemakkelijkste. Ze gaat er van uit dat je al kent, en op zoekt bent naar de gepaste . Wat bedoelen we hier met gepast? Het valt op dat deze formule sterk lijkt op de formule van ons model. Herschrijven geeft . De gepaste is dus diegene die ervoor zorgt dat, indien onze predictor gelijk is aan , ons criterium gelijk is aan .

Beeld je in dat je de waarde van met een draaiknop kan regelen. Dan zal je merken dat onze rechte, door heen en weer aan die knop te draaien, enkel naar boven of naar onder schuift. De rico ligt al vast op , dus kantelen kan niet meer. De gepaste waarde voor is dan diegene waardoor de rechte precies door punt gaat.

Zie ook https://www.desmos.com/calculator/axxshcb5mh.

Als we in plaats van met de originele en werken met en , hebben we . Dan gaat de rechte volgens onze redenering hierboven door . Dat klopt helemaal met de fundamentele formule waarvan we met optimale lineaire voorspelling vertrokken zijn: . Die formule is van de vorm en gaat ook gegarandeerd door . Enkel rechten van de vorm met gaan niet door .

Richtingscoefficient

Ik schrijf de formule liever als . Dat is niet bepaald korter, maar toont wel beter welke stappen er achtereenvolgens gezet worden. Deze wordt uiteindelijk vermenigvuldigd met (en bij geteld) om te berekenen, dus we moeten het vanuit dat perspectief bekijken. De drie stappen zijn dan de haakjes in volgende formule van binnen naar buiten uitwerken: .

De eerste stap is de (gedeeltelijke) standaardisatiestap door vermenigvuldiging van met . Vergelijk het met een Z-transformatie: de standaardafwijking wordt teruggebracht van tot maar van het gemiddelde trekken we ons voorlopig niets aan. (Dat deel van de standaardisatie zit in .) Zo zetten we intuitief de stap van de -wereld naar de wereld.

Eens we gestandaardiseerd hebben, kunnen we de vertaalslag maken van de -wereld naar de -wereld. Dat doen we door te vermenigvuldigen met . Reminder: .

Tot slot de-standaardiseren we door te vermenigvuldigen met en dus de standaardafwijking te veranderen van naar . Opnieuw trekken we ons van nog niets aan. Zo belanden we van de -wereld in de -wereld. Zo zijn we in drie stappen van de -wereld in de -wereld geraakt.

Je kan beschouwen als de correctiefactor die we achteraf nog nodig hebben omdat we in de stappen hierboven en niet in rekening gebracht hebben.

Als je deze logica kan volgen, moet je nooit meer twijfelen of het nu of was. Je vertrekt van in de -wereld, dus het zou niet erg logisch zijn om daar direct op los te laten. Dat heeft alleen zin in de -wereld.

Somvariabelen

De formules voor somvariabelen zijn bij de meest intimiderende uit de hele cursus. Ze zijn zo lang dat ze moeilijk van buiten te leren zijn. Toch zal je ze gegarandeerd nodig hebben op het examen. Je moet ze niet alleen foutloos kunnen toepassen, maar dat moet ook nog eens tegen een stevig tempo gebeuren. In deze blogpost proberen we ze beter te begrijpen. We bespreken enkel de relevante formules uit beschrijvende statistiek, maar dezelfde redenering is ook van toepassing op hun tegenhangers uit de inductieve statistiek.

Somvariabelen voor gemiddelde

Voor we overgaan naar het meest uitdagende deel over (co)varianties, bekijken we kort eerst somvariabelen voor gemiddeldes. In de cursus vinden we een korte en een iets minder korte formule:

Onderliggend zijn deze formules gestoeld op volgende eigenschap van het sommatieteken:

Hopelijk is het voor iedereen duidelijk dat de eerste formule gewoon een speciaal geval is van de tweede. Als je de tweede goed begrijpt, moet je de eerste dus niet meer apart van buiten leren. Om de vertaalslag te maken, stel je . Dan krijg je:

  • ()
  • ()
  • ()
  • ()

Fun fact: we mogen deze formule niet toepassen op het product van twee toevalsvariabelen. Dankzij de chiastische eigenschap van de covariantie weten we echter wel dat .

Er zijn tussen deze twee extreme vormen nog tussenliggende versies te bedenken, bijvoorbeeld . Als er maar één toevalsvariabele in het spel is, krijgen we , wat we al eerder in de cursus gezien hadden bij univariate statistiek. Stiekem is het allemaal één pot nat.

Somvariabelen voor (co)varianties

En de pot nat zal snel nog groter worden. Voor (co)varianties geldt opnieuw dat de formules voor lineaire transformaties en bivariate sommen speciale gevallen zijn van volgende complexe formules:

De eerste heeft betrekking op varianties, en de tweede op covarianties. In beide gevallen valt weg want een verschuiving heeft uiteraard geen invloed op de spreiding van de gegevens. Wie een beetje heeft opgelet, weet ook dat elke variantie stiekem ook een covariantie is: . We kunnen dus ook schrijven als . Daar kunnen we dan weer de tweede formule op toepassen. Zo bekomen we een kortere versie van de eerste formule:

De luie (of efficiënte, het is maar hoe je het bekijkt) studenten onder ons kunnen de eerste formule dus links laten liggen, en gewoon altijd de tweede gebruiken.

Aangezien we geen twee verschillende uitkomsten kunnen hebben voor , moet . Hoe kunnen we dat beter begrijpen? Stel bij wijze van voorbeeld dat en beide van tot lopen, dan kunnen we onze berekening in een tabel gieten waarbij elke cel één term uit voorstelt:

Om te beginnen focussen we op de diagonaal:

In dit geval is en krijgen we termen van de vorm . Dat verklaart hoe we bij komen in de lange formule.

Onze volgende vaststelling is dat de tabel symmetrisch opgebouwd is: rij 1 kolom 2 bevat bijvoorbeeld dezelfde waarde als rij 2 kolom 1: want . We hoeven de drie termen onder de diagonaal (waar ) dus niet te berekenen, we kunnen gewoon de termen boven de diagonaal (waar ) dubbel meetellen in de totale som om tot het juiste resultaat te komen. Dat is de essentie van .

Samengevat: door de formule langer en moeilijker te maken besparen we ons wat rekenwerk. Kies dus zelf welke versie van de formule je gebruikt in functie van je voorkeur voor eenvoud t.o.v. snelheid. Op het examen is snelheid zeker belangrijk, maar correctheid ook. Als je een klein rekenfoutje maakt, heb je al snel nul op een oefening. In die zin is de ingebouwde "dubbelcheck" in de korte versie door termen twee keer te berekenen misschien nog niet zo slecht. Los van heel dit verhaal om beter te begrijpen waar de formules vandaan komen, is het sterk aan te raden om voor het examen echt te trainen op het snel toepassen ervan. Oefeningen zoals op blz. 91 moet je elk binnen de halve minuut kunnen oplossen.

Somvariabelen voor standaardafwijkingen

Voor standaardafwijkingen bestaan geen kant en klare formules. Gebruik daarom de formules voor varianties en neem daarna de vierkantswortel. Je zou je wel kunnen afvragen of je specifiek voor bivariate sommen geen eenvoudigere manier kan verzinnen. We weten dat . We weten ook dat . Zou dan ? Dat zou betekenen dat , bijna maar niet helemaal waar we naar op zoek zijn. De formule gaat helaas alleen op als , dus als .

Somvariabelen voor correlaties

Ook voor correlaties geen kant en klare formules. Hier moet je terugvallen op de formule en dan de somvariabelen voor de drie (co)varianties uitrekenen.

Drie formules voor het gemiddelde

In de vorige blogpost hebben we de klassieke formule voor het steekproefgemiddelde ontleed. De prof merkt in de cursus casually op dat je dit gemiddelde op nog twee andere manieren kan berekenen. In totaal zijn er dus drie manieren.

Voor dezelfde steekproef geven al deze formules hetzelfde resultaat. Het moet dus mogelijk zijn om wiskundig uit één versie de twee andere versies af te leiden. Dat geeft volgende zes stellingen:

Zet de weblecture even stil Probeer voor je verder leest zelf deze stellingen te bewijzen.


Bewijs voor

  • (gegeven)
  • (definitie )
  • (constante buitenbrengen)

In mensentaal: omdat de proportie de deling door impliciet al bevat, staat die in formule niet meer in. (Anders zou je delen door .) In zit nog niet verwerkt, dus daar moet je de deling wel expliciet opnemen in de formule. In plaats van elke term apart te delen, tel je tot slot eerst alles op en doe je dan eenmalig de deling (distributiviteit).

Aangezien gelijkheid symmetrisch is (dus ) kunnen we aantonen dat door het bewijs van achter naar voor te lezen. We hebben dus eigenlijk bewezen.

Omdat en equivalent zijn, moet je van de overige vier stellingen nog maar twee bewijzen. Als je bijvoorbeeld kan bewijzen, kan je met één extra stap direct bewijzen.

Bewijs voor

Dit is al iets moeilijker omdat we geen wiskundige formule hebben om voor te stellen. Hier moet je dus op je intuitie rekenen. Een voorbeeld kan daarbij helpen. Stel dat we een steekproef voor hebben met waardes . Als we hier formule op loslaten krijgen we

Om formule te testen moeten we eerst een frequentietabel opstellen.

1 1
2 2
3 1

Dan krijgen we:

Zo zie je onmiddelijk dat de twee formules exact hetzelfde zeggen, maar op een subtiel verschillende manier. telt gewoon alle waardes bij elkaar op ongeacht de aanwezigheid van duplicaten, terwijl enkel naar de unieke waarden kijkt en dan via vermenigvuldiging aangeeft hoeveel keer elk getal voorkomt.

Normaal gesproken is één geslaagd voorbeeld niet genoeg om iets wiskundig te bewijzen. Dichter dan dit gaan we in dit geval helaas niet geraken met de beperkte notatiewijze die we in de cursus hanteren. Hopelijk is het toch intuitief duidelijk dat de twee berekeningen in alle gevallen equivalent zijn. Besluit: want je kan ook dit bewijs omgekeerd toepassen.

Speciaal geval: geen duplicaten

Wie wiskundig toch op zijn honger blijft zitten, kan een speciaal geval van de stelling proberen te bewijzen. Stel dat we een steekproef hebben zonder duplicaten. Dan is en (waarom?). Hiermee kunnen we wel aan de slag.

  • (gegeven)
  • ()
  • (hernoem index)
  • (neutraal element voor vermenigvuldiging)
  • (gegeven)

Het hernoemen van een index is wiskundig gezien altijd toegestaan (zolang de nieuwe letter nog geen eerdere invulling had) aangezien het niets verandert aan de inhoudelijke betekenis van de formule. In onze cursus hebben we wel specifieke conventies vastgelegd voor het gebruik van en , dus pas daar mee op.

Aangezien we nu weten dat en hebben we impliciet alle zes stellingen bewezen.

Frequentie anders bekenen

Veel studenten kennen formule al lang maar zijn nog niet vertrouwd met formule op het moment dat ze aan statistiek beginnen. De kans is echter groot dat ze die formule zonder het goed te beseffen al verschillende keren hebben toegepast op een subtiel andere manier.

Neem een voorbeeld waarbij de examenscores van een eerstejaarsstudent voorstellen.

Vak Stp Punten (op 20)
Functieleer 6 10
Sociale psychologie 1 6 12
Statistiek 1 8 8
Methoden 1 4 16
Sociologie 4 14

Als we de studiepunten even negeren, kunnen we het gemiddelde heel eenvoudig berekenen:

We kunnen bijvoorbeeld ook formule gebruiken, maar dat gaat uiteraard exact hetzelfde geven. Er zijn zelfs geen duplicaten, dus de berekening zal identiek zijn. Je zou echter kunnen beargumenteren dat dit gemiddelde niet representatief is, omdat het hetzelfde gewicht geeft aan kleine als aan grote vakken.

We moeten dus het gewogen gemiddelde berekenen waarbij we rekening houden met de studiepunten. Dit is trouwens ook de berekening die achterliggend in het studievoortgangsdossier gebruikt wordt om tot de totaalscore te komen. In de cursus staat dit concept niet, maar iedereen die ooit zelf het eindresultaat op zijn of haar rapport heeft nagerekend in het middelbaar weet hoe dit moet:

Dubbelcheck: is dit een logische uitkomst? Ja, het is in de buurt van de die we eerder hadden, maar iets lager omdat onze student relatief slechter scoorde op de grotere vakken.

Vermoedelijk doet deze werkwijze je denken aan formule , maar we hebben net gezegd dat die formule gewoon als resultaat zou geven. Wat is hier aan de hand? In drukken we gewicht uit in termen van frequentie, maar je kan gewicht dus ook op andere manieren uitdrukken (zoals hier in aantal studiepunten). Om formule te kunnen toepassen, moeten we onze frequenties kunstmatig bijstellen door een score meerdere keren op te nemen in onze steekproef. Zo krijgen we . Probeer zelf eens formule hierop toe te passen, dan zal je zien dat we inderdaad opnieuw uitkomen.

Kort samengevat: formule berekent het gewogen gemiddelde waarbij het gewicht van een waarde gelijk is aan de overeenkomstige frequentie.

Conclusie

Zelfs achter de simpelste formules in de cursus zit een heel verhaal. Nu is het aan jou om de verhalen achter de andere concepten uit de cursus te achterhalen.

Fun fact

Als je een steekproef partitioneert, daarna van elk deel het gemiddelde neemt en tot slot het gewogen gemiddelde neemt van die gemiddeldes, kom je uit op het het originele gemiddelde van de hele steekproef. Kan je dat bewijzen?

Voorbeeld:

Deze techniek kan je bijvoorbeeld gebruiken als je het gemiddelde van een rij getallen moet berekenen, en er stromen altijd nieuwe getallen binnen aan het einde van die rij. In plaats van dan alle getallen vanaf het begin terug op te tellen en te delen door de nieuwe , kan je verder rekenen vanaf het vorige berekende gemiddelde . Voor één nieuw element krijg je dan volgende algemene formule:

Hoe zou de formule er uit zien als er getallen in één keer binnen stromen i.p.v. slechts één?

Moeilijkheidsgraden statistiekvakken

Statistiek 1 is doorgaans het allereerste examen dat eerstejaarsstudenten uit de Bachelor Psychologie aan de KU Leuven moeten afleggen. Voor velen zal het tegelijk ook het moeilijkste vak uit de hele bacheloropleiding zijn. Laat je dus niet ontmoedigen als dit examen niet van de eerste keer vlot verloopt. De kans is groot dat de examens van andere vakken een pak beter meevallen.

Statistiek 1 is - zoals de naam al aangeeft - het eerste vak in een lange rij statistiek en methodologievakken. Ook hier geldt de vuistregel dat statistiek 1 het moeilijkste vak is uit deze reeks. Het is dus niet zo dat statistiek 2, 3 en 4 totaal onhaalbaar zijn als je al heel veel moeite hebt met statistiek 1. Anders bekeken: als je slaagt voor statistiek 1, dan zullen alle andere vakken ook wel lukken en is je diploma virtueel binnen.

De essentie staat hieronder samengevat in een grafiek. De moeilijkheidsgraad wordt weergegeven op een schaal van 0 (gemakkelijkste vak) tot 10 (moeilijkste vak van de opleiding). Natuurlijk is het wat kort door de bocht om de moeilijkheidsgraden op deze manier te kwantificeren, maar het geeft je toch een ruw idee van wat je mag verwachten. Dit is niet enkel hoe ik de examens heb aangevoeld, maar ook wat ik van een meerderheid van medestudenten heb gehoord. Er zijn altijd wel studenten te vinden die bijvoorbeeld statistiek 2 moeilijker vinden dan statistiek 1, maar zo zijn er niet veel.

Sommige studenten beweren dat het herexamen altijd (veel) moeilijker is dan het examen in eerste zittijd. Op basis van de reconstructies die ik gezien heb, geloof ik niet echt in die regel. Het ene examen is al wat makkelijker dan het andere, maar ik zie geen duidelijke trend.

In [2]:
import matplotlib.pyplot as plt

x = ['gem. Ψ vak', 'stat 1', 'stat 2', 'stat 3', 'stat 4', 'stat 5']
y = [5, 10, 8, 4, 7, 5]
fig, ax = plt.subplots(1, 1)
ax.bar(x, y)
ax.set_ylim([0, 11])
ax.set_ylabel('subjectieve moeilijkheidsgraad');
No description has been provided for this image

Dissectie van formules

Biologie

Een bioloog die een muis bestudeert, kan er eens oppervlakkig naar kijken en dan direct zijn conclusies trekken.

  • vier poten met elk 5 vingers
  • staart
  • zoogdier
  • vacht
  • knaagdier, grote snijtanden
  • twee ogen, lateraal
  • twee oren, grote oorschelpen
  • snorharen

Dat is een goede eerste stap maar er valt nog veel meer te leren over muizen, bijvoorbeeld hoe hun lichaam intern werkt. Onze bioloog gaat dan wel zijn handen moeten vuilmaken door een dissectie uit te voeren.

Statistiek

Bij wiskunde en statistiek gebeurt er vaak iets gelijkaardig, maar dan met formules in plaats van met muizen. Een student ziet een formule, probeert die hopelijk minstens oppervlakkig te begrijpen in plaats van die van buiten te leren, en gaat dan snel verder naar de volgende formule in de cursus.

Hoe moeten we ons dat praktisch voorstellen? Neem een formule die iedereen kent:

Wat zijn onze voorlopige conclusies?

  • is het (steekproef)gemiddelde
  • berekening: tel eerst alle -waarden bij elkaar op, en deel dan door

Mystery solved. Of toch niet helemaal? Hoe kunnen we deze formule net als onze muis binnenstebuiten keren om er alles over te leren?

We kunnen beginnen met de vaststelling dat de formule drie componenten heeft.

In de originele vorm berekenen we (1) uit (2) en (3), maar andere combinaties zijn ook mogelijk. Stel dat we (3) willen berekenen uit (1) en (2).

Dit doet je misschien denken aan de formule , maar die heeft er niets rechtstreeks mee te maken aangezien geen constante is binnen de som. Je kan de formule hier wel andersom toepassen met . Dan krijgen we

Hier leren we plots iets heel anders uit. Als je keer het gemiddelde neemt, kom je uit op de som van alle -waarden. Stel dat we als -waarden gevonden hebben met als som . Dan is het gemiddelde want . Grafisch voorgesteld:

+--+-----+----+-+
| 2|  5  |  4 |1|
+--++---++--+-+-+
| 3 | 3 | 3 | 3 |
+---+---+---+---+

Je kan je afvragen of de omgekeerde redenering met de rol van en omgewisseld ook zinvol is. Vanwege commutativiteit zal je inderdaad altijd op het juiste getal uitkomen, maar hier zit niet echt een intuitieve logica achter. Als een decimaal getal is, loopt het trouwens helemaal in het honderd want dan is het geen zinvolle index meer voor het sommatieteken. Dit is duidelijk geen goede manier om er naar te kijken, maar het was zeker een poging waard. Niet elke dissectie hoeft een succes te zijn.

Als laatste kunnen we ook (2) berekenen uit (1) en (3).

Toegepast op ons voorbeeld: als de som is, en het gemiddelde , kunnen we afleiden dat .

Deze formules staan niet expliciet in de cursus, maar blijken vaak best belangrijk te zijn. Ga dus niet te snel over eender welke formule, maar probeer de vergelijking altijd vanuit meerdere perspectieven te bekijken. Voor mensen met een wiskundeknobbel is dit vanzelfsprekend. De prof gaat hier meestal dan ook niet dieper op in, maar dat maakt het niet minder belangrijk.

Nog een inzicht: eens je het gemiddelde kent, kan je de andere getallen ook voorstellen als afwijking ten opzichte daarvan. Voor krijgen we dan of ook . Als we van deze nieuwe getallen het gemiddelde berekenen moeten we altijd op uitkomen aangezien . (Dit is ook de reden waarom .) In ons geval is inderdaad . De laatste deling door is zelfs overbodig. Als de teller gelijk is aan weet je genoeg. Deze techniek is vooral nuttig als je voor een kleine dataset het gemiddelde "op het zicht" wil gokken en daarna snel wil checken of dat getal ook echt het gemiddelde is. Voor zou je kunnen gokken dat het gemiddelde is. Aangezien was dat inderdaad een goede gok.

Een andere belangrijke wiskundige vaardigheid is het vinden van verbanden tussen verschillende formules. Vaak moet je het niet al te ver zoeken. Voor het steekproefgemiddelde hebben we bijvoorbeeld drie verschillende formules die voor een gegeven steekproef altijd dezelfde uitkomst geven.

Kan jij in eigen woorden uitleggen waarom dat zo is?

To be continued...