Tip voor oefeningen combinatoriek: vereenvoudigen

In tegenstelling tot veel oefeningen rond statistiek, is het bij combinatoriek moeilijk om een uitkomst te dubbelchecken. Daardoor is het moeilijk om zeker te weten of je op de goede weg bent. Een alternatief is om een vereenvoudigde versie van de gegeven oefening uit te werken. Daarbij kan je dan alle mogelijk combinaties uitschrijven om te kijken of dat aantal overeenkomt met jouw formule.

Voorbeeld

Neem opgave 8 van practicum 5. Dit is een klassieke oefening op combinatoriek. Er zijn drie brieven en zes brievenbussen. Je vermoedt dat de uitkomst gaat zijn. Dat is een vrij groot getal, dus alle combinaties uitschrijven om te dubbelchecken gaat lastig zijn. In de plaats daarvan kan je dezelfde oefening oplossen voor twee brieven (1, 2) en drie brievenbussen (A, B, C). Onze voorspelling is dan dat - met dezelfde aanpak als hierboven - de uitkomst zal zijn. Schrijf vervolgens alle combinaties uit, en kijk of het klopt.

(Zoals gewoonlijk helpt het om hierbij een tekening te maken om een beter zicht te krijgen op alle mogelijkheden.)

  • 1A, 2B
  • 1A, 2C
  • 1B, 2A
  • 1B, 2C
  • 1C, 2A
  • 1C, 2B

Perfect! Zes is inderdaad het juiste antwoord. Dat is een sterk signaal dat onze aanpak klopt, en ook geldig zal zijn voor de originele oefening.

Je moet bij deze strategie de balans te vinden tussen enerzijds voldoende kleine getallen kiezen zodat het aantal combinaties beperkt blijft, maar anderzijds ook niet te laag gaan. Werken met het cijfer twee is bijvoorbeeld altijd een risico omdat . Zo krijg je met een foute formule soms toch een vals gevoel van veiligheid als je puur toevallig het juiste aantal uitkomt. Dat probleem ga je veel minder hebben bij getallen groter dan twee. In ons voorbeeld is , dus we zouden al veel pech moeten hebben als we dan met een foute formule toevallig toch op de juiste uitkomst zouden uitkomen.

Dit was nog een redelijk eenvoudige oefening, maar dezelfde strategie kan je ook bij moeilijkere oefeningen gebruiken. Vereenvoudig de opgave zodat het volledig uitschrijven van alle combinaties haalbaar wordt, en dubbelcheck vervolgens of jouw methode het juiste antwoord geeft.

Reconstructie Examen Statistiek 1

Dit is de eerste examenperiode met prof. De Roover. We zijn dan ook erg benieuwd hoe verschillend haar examens zijn t.o.v. haar voorganger prof. Van Mechelen. Onderstaande reconstructie werd uitgewerkt op basis van de Google docs van de studenten. Het document is helaas onvolledig en bevat een aantal fouten, wat een perfecte reconstructie onmogelijk maakt. Laat gerust iets weten als jij je meer details zou herinneren.

Extra tip voor studenten die binnenkort hun examen gaan inkijken: je hebt recht op een examenkopie.

Eerste indruk

  • wat bleef hetzelfde
    • grote lijn zijn onveranderd
    • populaire topics
      • kansrekenen
      • optimale lineaire voorspelling
      • somvariabelen
      • scatterplot tekenen
  • wat is nieuw
    • 15 meerkeuze + 5 open vragen
      • in plaats van 15 open vragen
      • de drie foute alternatieven zijn niet random maar gebaseerd op veelgemaakte fouten
      • puntenverdeling
        • vroeger: 2 punten per vraag
        • nu
          • 1 punt per meerkeuzevraag (met giscorrectie)?
          • 2 punten per open vraag?
    • geen bewijzen
    • geen vraag over verzamelingenleer
    • weinig combinatoriek
    • beperkt aantal vragen over nieuwe leerstof (modellen)
    • meer Steiner en Tchebychev oefeningen
    • meer weggevertjes
    • Van Mechelen had elke examenperiode nieuwe vragen
      • maar hier merken we toch wat hergebruik van oude vragen op

Meerkeuzevragen

Q1

  • gegeven
  • gevraagd
  • opties
    1. 0.50
    2. 0.75
    3. 0.90
    4. 1.00
  • oplossing
    • tabel omvormen
    • tabel uitbreiden met
      • opgelet: sorteren op van klein naar groot
1 0 0.30
1 1 0.20
2 0 0.40
2 1 0.10
1 0 5 0.30 0.30 0.30
- - 6 - 0.00 0.30
1 1 7 0.20 0.20 0.50
- - 8 - 0.00 0.50
- - 9 - 0.00 0.50
2 0 10 0.40 0.40 0.90
- - 11 - 0.00 0.90
2 1 12 0.10 0.10 1.00

Q2

  • gegeven
    • cfreq
  • gevraagd
  • oplossing
    • cfreq -> freq
    • via ZRM

Q3

  • gegeven
    • ?
  • gevraagd

Q4

  • gegeven
  • gevraagd
    • welke stelling is onjuist?
      • de dichtheid van ... is kleiner dan die van ...
      • de dichtheid van ... is kleiner dan die van ...
      • de dichtheid van ... is kleiner dan die van ...
      • de dichtheid van ... is kleiner dan die van ...
  • oplossing
    • dichtheid is lager als verder weg ligt van
    • bereken afstand
      • grotere afstand lagere dichtheid
    • dus

Q5

  • gegeven
    • klas,
    • gemiddelde gekwadrateerde verschil van de punten met 10 is 9.1
  • gevraagd
  • oplossing
    • Steiner

Q6

  • gegeven
    • test met score op 20
    • omgezet naar score op 100
    • i.i.d.
  • gevraagd
  • oplossing
      • doet er niet toe dat score is omgezet op 100
      • er zijn maar 20 vragen, dus 20 kansen om punten te verdienen
  • opties
    • 2.1761 -> dit is
    • 10.8806 -> dit is
    • 23.6775 -> dit is met
    • 4.8660 -> dit is

Q7

  • gegeven
    • 14 koppels
  • gevraagd
  • oplossing
    • neem koppels waar
    • sorteer o.b.v. -waarde van klein naar groot
    • als oneven
      • neem middelste waarde
    • als even
      • neem gemiddelde van twee middelste waardes

Q8

  • gegeven
    • ?
  • gevraagd
    • lineaire transformatie van covariantie
  • oplossing
    • rekenregel
    • en aangezien geldt ook
    • gecombineerd
      • (regel lineaire transformatie toegepast op )
      • (regel lineaire transformatie toegepast op )
      • ...

Q9

  • gegeven
  • welke variabele kan en hebben?
  • opties
    • en
    • enkel
    • enkel
    • geen van beide
  • oplossing
    • stel dat en
    • test
      • Tchebychev
        • kan niet, dus gemiddele en/of variantie kloppen niet voor
    • test
      • Tchebychev
        • OK

Q10

  • gegeven
    • elke conditie komt even vaak voor
    • tabel
  • gevraagd
    • welke waarde is fout?
  • oplossing
    • tabel uitbreiden (zie onder)
    • dan is ...
      • als , dan
      • dus is fout

Q11

  • gegeven
    • werp met twee dobbelstenen
    • : hoogste aantal ogen van de twee
  • gevraagd
  • oplossing
    • tabellen opstellen
    • (ZRM)
1 1 1
1 2 2
1 3 3
1 4 4
1 5 5
1 6 6
2 1 2
2 2 2
...
5 6 6
6 1 6
6 2 6
6 3 6
6 4 6
6 5 6
6 6 6
1 1/36
2 3/36
3 5/36
4 7/36
5 9/36
6 11/36

Q12

  • gegeven
    • grafiek
  • gevraagd
    • interkwartielbereik
  • oplossing

Q13

  • gegeven
    • OLV
    • zit 1 standaarddeviatie boven gemiddelde
  • gevraagd
  • opties
  • oplossing

Q14

  • cf. examen 2020-01-13, vraag 7
  • gegeven
  • gevraagd
  • opties
  • oplossing
    • opgepast:
    • (distributiviteit)
      • (chiastische eigenschap)
      • ()
      • (somvariabelen)

Q15

  • gegeven
    • tabel
    • OLV
  • gevraagd
    • proportie verklaarde variantie
  • oplossing

Open vragen

Q16

  • gegeven
    • i.i.d.
  • gevraagd
  • oplossing
      • (somvariabelen variantie)
      • (onafhankelijk)
      • (identiek verdeeld, dus )
      • (eigenschap correlatie)
      • (somvariabelen covariantie)
      • (i.i.d.)
      • (vereenvoudig)
      • (zie hierboven)
  • merk op
    • dit zou te gemakkelijk zijn voor een open vraag

Q17

  • gegeven
  • gevraagd
    • scatterplot
    • 8 punten
  • oplossing
    • (veel mogelijkheden)
    • 4 punten op stijgende rechte vanaf
    • spiegellijn halverwege tussen en , dus op
    • 4 punten op dalende rechte vanaf
1 6
2 7
3 8
4 9
1 2
2 1
3 0
4 -1

q17-plot

Q18

  • gegeven
  • gevraagd
    • teken
  • oplossing
    • dubbelcheck oppervlakte onder
      • -> OK
      • dus op andere plaatsen
    • teken
      • assen
        • horizontaal
          • label:
          • schaal: in stappen van
        • verticaal
          • label:
          • schaal:
      • elke rechthoek in wordt een driehoek in
0 0
0.05 0
0.25 0.20
0.35 0.20
0.65 0.80
0.80 0.80
0.85 1

q18-plot

Q19

  • gegeven
    • dagen
    • : stemming score
    • : dag
    • onafhankelijk
  • gevraagd
  • oplossing
    • stel
    • tabel opstellen
    • (ZRM)

Q20

  • cf. examen 2020-08-17, vraag 8
  • gegeven
    • : lichamelijke klachten
    • : cursus voltooid
    • ?: therapie gevolgd
  • gevraagd
  • oplossing

Nieuw examenformularium voor statistiek 1

Bij prof. Van Mechelen mochten studenten geen formularium gebruiken voor statistiek 1. Voor statistiek 2 mocht wel een handgeschreven formularium van 2 blz. worden meegenomen. In het nieuwe curriculum is er nog een ander systeem: de prof voorziet een formularium en statistische tabellen als appendix bij de examenbundel. Helaas krijg je enkel de highlights over het deel rond statistische modellen. Formules uit de rest van de cursus moet je dus nog wel van buiten leren. Hieronder vind je een overzicht van wat je mag verwachten.

Statistische modellen

Bernoulli

Binomiaal

Geometrisch

Poisson

Exponentieel

Uniform

Normaal

Statistische tabellen

Standaard normaalverdeling

  • met
0.0005 -3.2905
0.001 -3.0902
...
0.999 3.0902
0.9995 3.2905

Hervorming statistiek (update)

Nu de lessen van het eerste semester voorbij zijn, kunnen we meer in detail terugblikken op concrete veranderingen sinds de statistiek hervormingen begin dit academiejaar.

Wat in de eerste plaats opvalt, is dat de studielast in theorie verminderd is van 8 naar 7 studiepunten, maar dat er toch meer onderwerpen besproken worden in de cursus. Specifiek is het deel over statistische modellering uit het oude statistiek 2 vak overgeheveld naar statistiek 1. Daarin leren we o.a. over de Bernoulli-, Binomiaal- en Normaalverdelingen. Ik gaf voorheen al het advies aan studenten statistiek 1 om de binomiaalverdeling kort te bekijken, aangezien die stiekem in veel vragen voorkwam. Dat probleem is bij deze opgelost, maar de vraag blijft hoe we hier dan kunnen spreken over een daling in studiebelasting? Hoewel prof. De Roover niet meer verwijst naar de cursus van prof. Van Mechelen, is het duidelijk dat haar slides daar nog steeds heel sterk op gebaseerd zijn. Alle oude hoofdstukken zijn behouden gebleven, dus er moeten per hoofdstuk hier en daar elementen gesneuveld zijn om plaats te maken voor de nieuwe leerstof.

We merken vooraan in de cursus dat het hoofdstuk rond verzamelingenleer sterk vereenvoudigd is. De leerstof rond cartesische producten, machtsverzamelingen, partities en oneindige verzamelingen is weggevallen. Dat deel van de leerstof zorgde voor veel problemen bij studenten, maar was eigenlijk niet erg relevant voor de rest van de cursus. Ook logaritmes zijn subtiel weggewerkt uit de cursus.

Doorheen de cursus merken we ook dat de focus op bewijzen fel verminderd is. Hier en daar wordt nog wel aangetoond hoe men aan een formule komt, maar de vaardigheid heeft duidelijk aan belang ingeboet. Als er op het examen ook geen vragen over bewijzen meer komen, winnen studenten hier inderdaad opnieuw wat tijd. Dat verklaart ook ineens waarom er minder geoefend wordt op rekenen met sommatietekens (en dan vooral dubbele sommatietekens). Die had je namelijk vooral nodig om bewijzen uit te werken.

De cursus van Prof. Van Mechelen bevatte ook opdrachten (los van de practica) die bij de theorie hoorden. Die hielpen zeker om de leerstof te verwerken, maar zijn niet overgenomen in het lesmateriaal van prof. De Roover. Ook daar moeten studenten dus geen tijd meer insteken. (Wie toch benieuwd is, kan de vragen terugvinden onder de tab "Oplossingen" op deze site.)

We kunnen dus concluderen dat prof. De Roover vooral tijd heeft proberen te besparen op de wiskundige achtergrond, om zo toch voldoende tijd aan de statistische leerstof te kunnen besteden. Die is namelijk wel grotendeels gelijk gebleven, al merk je hier en daar ook wel enkele besparingen. Zo moeten formules voor somvariabelen nu niet meer gekend zijn voor variabelen, maar zijn de formules uitgewerkt voor het concrete geval van twee of drie variabelen. Ook Tchybychev moet het nu stellen met één formule in plaats van twee.

Veel is er verder niet veranderd. Er zijn nieuwe practicumopgaven die qua vorm nu een voorproefje zijn van de meerkeuzevragen die we op het examen mogen verwachten. Nochtans was het proefexamen (op het meerkeuze aspect na) heel gelijkaardig aan proefexamens van prof. Van Mechelen. Het is duidelijk dat de nieuwe docent dus vooral voor continuiteit gaat.

Nu is het vooral afwachten hoe haar eerste examen er zal uitzien. Gaat er nog iets gevraagd worden van verzamelingenleer? Gaat er nog een bewijs inzitten? Waarschijnlijk zal het antwoord tweemaal nee zijn. We weten ondertussen wel dat er een formularium aan het examen zal toegevoegd worden, maar dat gaat enkel over het deel rond statistische modellen, niet over de rest van de cursus.

We weten natuurlijk allemaal uit het tijdperk van prof. Van Mechelen dat de grote moeilijkheid van het vak niet echt in de inhoud zat, maar wel in de manier van verbeteren. Afwachten dus wat de moeilijkheidsgraad van het echte examen zal zijn, hoeveel meerkeuzevragen er zullen zijn t.o.v. de open vragen en hoe die open vragen verbeterd zullen worden.

Variantie en i.i.d.

Wie het laatste hoofdstuk van deel 1 bestudeerd heeft, weet ondertussen waar i.i.d. voor staat: independent and identically distributed. Als en onafhankelijk zijn, geldt dat:

Als ze identiek verdeeld zijn, weten we dat hun verdelingsfuncties (kansmassafunctie of dichtheidsfunctie) exact hetzelfde zijn, en dat het dus weinig zin heeft om nog een subscript te gebruiken:

Hoe kunnen we dat nu toepassen op varianties? Stel dat we willen berekenen waarbij en i.i.d. zijn. Dan beginnen we zoals altijd met de rekenregels van somvariabelen toe te passen:

Normaal moeten we hier stoppen, maar met het extra gegeven van i.i.d. kunnen we nog verder gaan. Uit onafhankelijkheid volgt dat , en dus ook dat :

We zijn er nu bijna, maar nog niet helemaal. We hebben al iets met de eerste i gedaan, maar nog niet met de tweede. Als en identiek verdeeld zijn, zijn ook al hun statistische maten gelijk. Dus en . Zo komen we finaal tot:

We kunnen dit ook uitbreiden naar i.i.d. Dan krijgen we:

Als krijgen we tot slot:

Hervorming statistiek

Sinds vandaag staat het nieuwe programmaboek voor academiejaar 2023-2024 online. Daarmee worden de details van de bachelorhervorming officieel naar buiten gebracht. Die hervorming draait vooral rond de vernieuwing van de opleidingsonderdelen statistiek naar aanleiding van het emeritaat (pensioen) van prof. Van Mechelen. Hoewel de professor afgelopen academiejaar ook al afwezig was wegens een sabbatjaar, was er tot nu toe eigenlijk nog niet veel veranderd.

Hoe het was

Tot voor kort werden in de Bachelor Psychologie drie verplichte opleidingsonderdelen statistiek aangeboden:

  • fase 1, semester 1
    • Statistiek voor psychologen, deel 1, met practicum (8 stp.)
  • fase 2, semester 2
    • Statistiek voor psychologen, deel 2, met practicum (8 stp.)
  • fase 3, semester 2
    • Statistiek voor psychologen, deel 3, met practicum (3 stp.)

Alle drie vakken - 19 studiepunten in totaal - werden gedoceerd door prof. Van Mechelen. Afgelopen academiejaar werden zijn taken door volgend didactisch team overgenomen:

  • Marre Vervloet - docent
  • Clara Mertens - vragencolleges
  • Katrijn Cnudde - practicumcoordinator

What's new

De drie bovengenoemde vakken zijn vervangen door 20 studiepunten verdeeld over vier nieuwe vakken. De voornaamste structurele wijziging is dat het oude deel 2 van 8 studiepunten uit elkaar is gevallen in twee vakken van 4 studiepunten. Verder krijgen computationele vaardigheden (i.e., werken met statistische software) duidelijk meer aandacht.

  • fase 1, semester 1
    • Statistiek voor psychologen, deel 1: Beschrijvende en inductieve statistiek (7 stp.)
      • prof. Kim De Roover
        • nieuwe prof
  • fase 2, semester 2
    • Statistiek voor psychologen, deel 2: Inductieve statistiek (4 stp.)
      • prof. Eva Ceulemans
        • doceert reeds statistiek voor pedagogen 1, 2 en 3
      • Clara Mertens (plaatsvervanger)
        • verzorgde eerder al de vragencolleges van deel 1
    • Statistics for Psychologists, part 3: Computational Statistics (4 stp.)
      • prof. Wolf Vanpaemel
        • doceert reeds statistiek 5 en 6 in de Master Psychologie
  • fase 3, semester 2
    • Statistics for Psychologists, part 4: Data Analysis (5 stp.)
      • prof. Francis Tuerlinckx
        • doceert reeds statistiek 4 en 5 in de Master Psychologie

Verder valt op dat:

  • Methoden 1 van 4 naar 5 studiepunten gaat
  • Psychometrie van 7 naar 6 studiepunten gaat
  • Psychologen aan het werk (5 stp.) omgevormd werd tot De psycholoog in de organisatie (4 stp.)

Logischerwijze volgt binnen drie jaar een hervorming van het masterprogramma. De huidige vakken statistiek 4-6 moeten minstens hernoemd worden naar statistiek 5-7.

Vergelijking oude met nieuwe deel 1

Het eerste dat opvalt is de reductie van 8 naar 7 studiepunten. Op basis van de beschrijving in de ECTS fiches lijkt het er op dat het deel rond optimale voorspelling zal sneuvelen en verkassen naar het nieuwe deel 4. Verder zijn de twee vakken op papier heel gelijkaardig.

Tot slot zal ook de evaluatie lichtjes veranderen:

(oud) Schriftelijk gesloten boekexamen; halfopen vragen waarbij men een getal, een kort stuk tekst of een tekening moet invullen (vaak met een korte, precieze verantwoording) naast een beperkt aantal meerkeuzevragen.

(nieuw) Schriftelijk gesloten boekexamen; meerkeuzevragen met giscorrectie naast een beperkt aantal halfopen vragen waarbij men een getal, een kort stuk tekst of een tekening moet invullen (vaak met een korte, precieze verantwoording)

De tekst is bijna hetzelfde, maar de meerkeuzevragen nemen een prominentere plek in. Merk op dat prof. Van Mechelen al lang geen meerkeuzevragen meer gebruikte op zijn examens.

Vergelijking oude met nieuwe deel 2

Het eerder theoretische oude deel 2 van 8 studiepunten moet plaats maken voor een kleiner vak van 4 studiepunten. Wellicht wil men de leerstof eerder hands-on uitleggen met software in het nieuwe deel 3 en 4.

Ook hier dezelfde opmerking als bij deel 1 over de evaluatie:

(oud) Schriftelijk gesloten boekexamen (met mogelijkheid tot gebruik van formularium); grotendeels open vragen naast een klein aantal vragen met een beperkte antwoordmogelijkheid.

(nieuw) Schriftelijk gesloten boekexamen; meerkeuzevragen met giscorrectie naast een beperkt aantal halfopen vragen waarbij men een getal, een kort stuk tekst of een tekening moet invullen (vaak met een korte, precieze verantwoording)

Opnieuw ligt het accent meer dan vroeger op de meerkeuzevragen. De vermelding van het formularium werd in de nieuwe tekst geschrapt, maar in de ECTS fiche staat ook dat een formularium en een rekenmachine als leermateriaal mag gebruikt worden bij de evaluatie. Op dat vlak geen verandering dus.

Vergelijking oude met nieuwe deel 3

Deel 3 (3 stp.) ging tot voor kort over het leren werken met SPSS (Statistics Package for the Social Sciences). Qua theorie werd amper iets nieuw aangeleerd. Je moest gewoon de theoretische concepten uit deel 1 en 2 met een computer kunnen toepassen.

SPSS valt nu blijkbaar weg en wordt vervangen door nieuwe software (JASP en R) in het nieuwe deel 3 (4 stp.). Terwijl je bij SPSS vooral met de grafische interface moet overweg kunnen, heeft statistiek met R veel weg van programmeren. (Geen paniek, de studenten logopedie & audiologie leren dat al jaren zo.)

Organisatorisch valt op dat dit deel schuift van fase 3 naar fase 2. Dat is op zich een goede zaak, aangezien de concepten van deel 2 (en in mindere mate deel 1) dan nog fris in je hoofd zitten.

Het nieuwe deel 4

Inhoudelijk gaat deel 4 (5 stp.) over ANOVA, lineaire regressie (i.e., optimale voorspelling) en logistieke regressie. Mogelijk komt lineaire regressie over uit het oude deel 1. Verder heeft dit inhoudelijk veel weg van het huidige statistiek 4 in de master. Afwachten wat voor effect dat in de toekomst op het masterprogramma gaat hebben...

Qua inplanning neemt dit vak ongeveer de plaats in van het oude deel 3 (fase 3, semester 2), maar inhoudelijk is het iets helemaal anders.

Conclusie

Nieuwe proffen, meer meerkeuzevragen op het examen, een meer hands-on aanpak, ... Dat zijn op het eerste zicht de highlights van deze hervorming.

Voorbeeldexamen - oef. 19

Achteraan de cursus Statistiek, deel 1 staat een voorbeeldexamen. Ik was onlangs vraag 19 daarvan aan het bekijken, en ik geraakte helemaal in de war. Ze vragen naar de gekwadrateerde standaardfout (). Dat is op zich niet zo vreemd, tot bleek dat de modeloplossing dit niet met de formules van optimale voorspelling maar met de regel van Steiner aanpakt. Nog straffer: de uitkomst was groter dan de gegeven variantie . Hier is duidelijk iets vreemd aan de hand, waar ik het fijne van wou weten.

Mijn eerste plan was om de modeloplossing te negeren en op mijn eigen manier met optimale voorspelling tot een oplossing te komen. Daarbij gebeurde iets vreemd...

Poging 1

  • gegeven
    • : IQ
  • gevraagd
  • oplossing

Persoonlijk vond ik deze oplossing logischer klinken dan de modeloplossing. De uitkomst is kleiner dan de variantie zoals verwacht, en de oplossingsmethode is niet zo ver gezocht.

Het is natuurlijk een beetje vreemd dat we hier een variabele is het leven moeten roepen waarop we ons zogezegd baseren om te voorspellen terwijl we die uiteindelijk helemaal niet gebruiken. De voorspelling is namelijk een constante (), wat de waarde van die erbij gefantaseerde ook zou zijn. In de formules komen we ook niet echt in de problemen, want we hebben inderdaad nergens een waarde gerelateerd aan nodig.

Op dit moment hebben we twee verschillende oplossingen waar iets voor te zeggen valt: Steiner vs optimale voorspelling. We moeten de zaken dus nog wat verder uitpluizen.

Poging 2

  • gegeven
    • : IQ
  • gevraagd
  • oplossing

Color me surprised... Als inderdaad het juiste antwoord zou zijn, wat is er dan mis met mijn eerste poging? Tijd om dieper te duiken.

Poging 1 bis

Werk met een concrete dataset

Als ik in de war ben, probeer ik het wat concreter te maken. In dit geval zou het handig zijn als we een paar concrete waarden hadden. Daarmee kunnen we in detail alle berekeningen volgen. Stel voor het gemak dat , dan hebben we en nodig. Hoe kunnen we de waardes daarvan zo kiezen dat we het juiste gemiddelde en de juiste standaarddeviatie uitkomen?

We beginnen met de voorwaarde van het gemiddelde:

We weten ook van hierboven dat :

  • (uitwerken met discriminant)
  • of
  • dan is of

Conclusie: dataset heeft de eigenschappen waar we naar op zoek zijn: en .

Pas klassieke OLV toe

Stel dat we om te beginnen die constante voorspelling van even vergeten en kijken hoe we los daarvan verder zouden gaan met deze gegevens. Ik heb hier deze keer wel een paar concrete -waarden bij verzonnen om het concreter te maken.

Optimale lineaire voorspelling werkt voor twee punten altijd perfect: je kan er altijd een rechte lijn door trekken. We berekenen eerst de vergelijking van deze lijn met meetkundige formules:

  • (rico)

Je kan dit ook met de klassieke formules voor en doen, zelfde resultaat.

Voor zal deze formule dus voorspellen, en voor wordt .

Hoe zien onze varianties er op basis van deze voorspelling uit?

So far so good, niets onverwacht.

Pas OLV zonder predictoren toe

Het speciale aan deze voorbeeldexamenvraag is dat we een constante voorspelling hebben. Onze leek kiest voor maar als hij een beetje slimmer was geweest, zou hij in de plaats het gemiddelde () gekozen hebben. Dat is ook wat optimale lineaire voorspelling voorschrijft als er geen predictoren zijn (geen in dit geval). Laten we dus het geval onder de loep nemen.

Tot hier klinkt alles nog logisch. De formules komen mooi uit. De variantie wordt nu helemaal opgesoupeerd door de foutenvariantie in plaats van door de verklaarde variantie. Niet verwonderlijk als je je voorspelling baseert op... niets.

Gebruik constante voorspelling 130

Wat is er dan zo speciaal aan deze voorbeeldexamenvraag dat deze formules hier niet goed werken? Laten we nog een laatste keer alle berekeningen doen op basis van en .

Aha! Onze berekening waren dus wel juist. We hebben enkel de fout gemaakt om er van uit te gaan dat in deze context . Uit bovenstaand avontuur leren we dat deze formule enkel bruikbaar is als de voorspelde waarde direct uit OLV volgt. Voor andere (niet optimale) voorspellingen geldt deze formule niet. Daarom ging Poging 1 de mist in. Mystery solved!

Conclusie

De modeloplossing was correct, al is het gebruik van Steiner om tot een oplossing te komen optioneel. Zoals je kan zien in Poging 2 hierboven kom je zonder Steiner ook op de juiste uitkomst. Let enkel op dat je geen formules uit optimale lineaire voorspelling toepast als de voorspelling wel lineair maar niet optimaal is.

Los van deze specifieke examenvraag toont dit relaas opnieuw aan hoe je zelf op onderzoek kan gaan als je bij statistiek - of wiskunde in het algemeen - op een tegenstelling botst. Geef niet te snel op, probeer het probleem vanuit verschillende perspectieven te benaderen, en maak het zo concreet mogelijk.

Absolute waarde als afstand

Wie de vereiste voorkennis onder de knie heeft, weet wat het effect is van de absolute waarde op een variabele :

Zo geldt altijd dat . Hoewel de definitie op zich niet moeilijk is, gooit een slechtgeplaatste absolute waarde in een opgave soms toch roet in het eten bij de uitwerking. In het slechtste geval moet je de twee gevallen ( en ) apart uitwerken en daarna de oplossingen opnieuw samenvoegen.

Ook bij statistiek komen we absolute waardes tegen. Ze komen vaak voor in volgende vorm:

Doorgaans zijn en gegeven en moet je op zoek naar mogelijke waarden voor . Deze vorm heeft een intuitieve interpretatie:

De afstand van tot moet kleiner dan of gelijk aan zijn.

Merk op dat er een minteken staat in de formule, maar dat we hier gewoon met (zonder minteken) werken. Verder kunnen we uitdrukkingen van de vorm omvormen tot . Die komen gelukkig minder vaak voor.

Voorbeeld

Stel dat we een vraag met tegenkomen. Dus is en . In eerste instantie gaan we het ongelijkheidsteken even wegdenken en vervangen door een gelijkheidsteken. Dan krijgen we . Welke getallen bevinden zich dan exact op afstand van ? Als we de ondergrens zoeken, komen we uit op . Gelijkaardig komen we als bovengrens uit op .

De vraag was echter niet de afstand gelijk aan , maar kleiner dan . Alle getallen binnen de twee grenzen tellen dus ook mee: .

Omgekeerd kunnen we aantonen dat Dit is het complement van de vorige oplossingsverzameling. In de context van kansen kan je in plaats daarvan ook het complement van de kans zelf nemen:

Monty Hall

Begon jij je ook af te vragen wat de professor gedronken had toen je vraag 9 van (regulier) practicum 6 zag? Een vraag over deuren en geiten?! Om nog maar te zwijgen van de absurd on-intuitieve oplossing. Ik kan jullie gerust stellen: de prof heeft dit niet zelf verzonnen. De vraag is namelijk een variant op het klassieke Monty Hall probleem. Als je hier naar zoekt op Google of YouTube, vind je heel veel informatie. Kijk o.a. eens naar deze video:

Notatie: kleine en grote letters

De prof hecht enorm veel belang aan de juiste notatiewijze op het examen. Symbolen uit inductieve statistiek (Griekse letters) gebruiken in de context van beschrijvende statistiek of omgekeerd leidt direct tot puntenverlies. Maar zelfs binnen deze twee luiken moet je goed oppassen. Voor standaarddeviaties en (co)varianties moet je o.a. volgende symbolen goed uit elkaar kunnen houden:

  • : standaardafwijking
  • : variantie (als statistische spreidingsmaat van een steekproef)
  • : variantie (met in noemer)
  • : standaardafwijking als toevalsvariabele
  • : foutenvariantie bij voorspelling van o.b.v.
  • : standaardafwijking van maal
  • : covariantie tussen en
  • : covariantie tussen ( maal ) en

In deze blogpost ligt de focus op het verschil tussen kleine en grote letters zoals en of en .

De notatiewijze met grote letters kom je pas helemaal op het einde van statistiek 1 tegen, wanneer de link gelegd wordt tussen steekproef en populatie. In de vervolgvakken zoals statistiek 2 ga je deze notatie veel vaker tegenkomen. Bij twijfel op het examen statistiek 1 gok je dus best op de kleine variant. Wie liever niet gokt moet nog even verder lezen.

Ter herinnering: een statistische maat is een berekening die je toepast op een steekproef waarbij je als uitkomst één getal krijgt. Het gemiddelde is een statistische (centrum)maat, maar je kan ook zelf maten verzinnen. is bijvoorbeeld een (weinig zinvolle) maat.

Statistische maten uit inductieve statistiek hebben geen tegenhanger met een grote letter: (hoofdletter ) ga je niet tegenkomen als maat; enkel als sommatieteken. Maten uit beschrijvende statistiek hebben wel soms een tegenhanger met een hoofdletter. In dat geval spreken we niet meer van een statistische maat maar van een statistiek. In plaats van observaties uit een steekproef te combineren tot één getal, rekenen we bij statistieken met hele steekproeven . Het klassieke voorbeeld is . Aangezien elke statistiek een toevalsvariabele is, heeft die een eigen verdelingsfunctie, een gemiddelde, een minimum en een maximum. Aangezien we elke toevalsvariabele met een hoofdletter schrijven, doen we dat ook voor statistieken.

Goed om weten: een statistiek noemen we een schatter als de verwachte waarde ervan een goede schatting oplevert voor de onderliggende populatieparameter. Zo is een schatter voor aangezien en een schatter voor .

Conclusie: heeft het ding één specifieke waarde, dan is het een statistische maat en moet je het met een kleine letter schrijven. Heeft het ding zelf een verdeling, een gemiddelde e.d., dan schrijf je het met een grote letter.

Merk daarnaast op dat bij beschrijvende statistiek de subscripts van statistische maten altijd in kleine letters voorkomen: . In het inductieve luik daarentegen hebben de statistische maten altijd grote subscripts: .

Bij andere symbolen waar de toevalsvariabele in subscript staat behouden we wel over heel de lijn hoofdletters: .