Voorbeeldexamen - oef. 19

Achteraan de cursus Statistiek, deel 1 staat een voorbeeldexamen. Ik was onlangs vraag 19 daarvan aan het bekijken, en ik geraakte helemaal in de war. Ze vragen naar de gekwadrateerde standaardfout (). Dat is op zich niet zo vreemd, tot bleek dat de modeloplossing dit niet met de formules van optimale voorspelling maar met de regel van Steiner aanpakt. Nog straffer: de uitkomst was groter dan de gegeven variantie . Hier is duidelijk iets vreemd aan de hand, waar ik het fijne van wou weten.

Mijn eerste plan was om de modeloplossing te negeren en op mijn eigen manier met optimale voorspelling tot een oplossing te komen. Daarbij gebeurde iets vreemd...

Poging 1

  • gegeven
    • : IQ
  • gevraagd
  • oplossing

Persoonlijk vond ik deze oplossing logischer klinken dan de modeloplossing. De uitkomst is kleiner dan de variantie zoals verwacht, en de oplossingsmethode is niet zo ver gezocht.

Het is natuurlijk een beetje vreemd dat we hier een variabele is het leven moeten roepen waarop we ons zogezegd baseren om te voorspellen terwijl we die uiteindelijk helemaal niet gebruiken. De voorspelling is namelijk een constante (), wat de waarde van die erbij gefantaseerde ook zou zijn. In de formules komen we ook niet echt in de problemen, want we hebben inderdaad nergens een waarde gerelateerd aan nodig.

Op dit moment hebben we twee verschillende oplossingen waar iets voor te zeggen valt: Steiner vs optimale voorspelling. We moeten de zaken dus nog wat verder uitpluizen.

Poging 2

  • gegeven
    • : IQ
  • gevraagd
  • oplossing

Color me surprised... Als inderdaad het juiste antwoord zou zijn, wat is er dan mis met mijn eerste poging? Tijd om dieper te duiken.

Poging 1 bis

Werk met een concrete dataset

Als ik in de war ben, probeer ik het wat concreter te maken. In dit geval zou het handig zijn als we een paar concrete waarden hadden. Daarmee kunnen we in detail alle berekeningen volgen. Stel voor het gemak dat , dan hebben we en nodig. Hoe kunnen we de waardes daarvan zo kiezen dat we het juiste gemiddelde en de juiste standaarddeviatie uitkomen?

We beginnen met de voorwaarde van het gemiddelde:

We weten ook van hierboven dat :

  • (uitwerken met discriminant)
  • of
  • dan is of

Conclusie: dataset heeft de eigenschappen waar we naar op zoek zijn: en .

Pas klassieke OLV toe

Stel dat we om te beginnen die constante voorspelling van even vergeten en kijken hoe we los daarvan verder zouden gaan met deze gegevens. Ik heb hier deze keer wel een paar concrete -waarden bij verzonnen om het concreter te maken.

Optimale lineaire voorspelling werkt voor twee punten altijd perfect: je kan er altijd een rechte lijn door trekken. We berekenen eerst de vergelijking van deze lijn met meetkundige formules:

  • (rico)

Je kan dit ook met de klassieke formules voor en doen, zelfde resultaat.

Voor zal deze formule dus voorspellen, en voor wordt .

Hoe zien onze varianties er op basis van deze voorspelling uit?

So far so good, niets onverwacht.

Pas OLV zonder predictoren toe

Het speciale aan deze voorbeeldexamenvraag is dat we een constante voorspelling hebben. Onze leek kiest voor maar als hij een beetje slimmer was geweest, zou hij in de plaats het gemiddelde () gekozen hebben. Dat is ook wat optimale lineaire voorspelling voorschrijft als er geen predictoren zijn (geen in dit geval). Laten we dus het geval onder de loep nemen.

Tot hier klinkt alles nog logisch. De formules komen mooi uit. De variantie wordt nu helemaal opgesoupeerd door de foutenvariantie in plaats van door de verklaarde variantie. Niet verwonderlijk als je je voorspelling baseert op... niets.

Gebruik constante voorspelling 130

Wat is er dan zo speciaal aan deze voorbeeldexamenvraag dat deze formules hier niet goed werken? Laten we nog een laatste keer alle berekeningen doen op basis van en .

Aha! Onze berekening waren dus wel juist. We hebben enkel de fout gemaakt om er van uit te gaan dat in deze context . Uit bovenstaand avontuur leren we dat deze formule enkel bruikbaar is als de voorspelde waarde direct uit OLV volgt. Voor andere (niet optimale) voorspellingen geldt deze formule niet. Daarom ging Poging 1 de mist in. Mystery solved!

Conclusie

De modeloplossing was correct, al is het gebruik van Steiner om tot een oplossing te komen optioneel. Zoals je kan zien in Poging 2 hierboven kom je zonder Steiner ook op de juiste uitkomst. Let enkel op dat je geen formules uit optimale lineaire voorspelling toepast als de voorspelling wel lineair maar niet optimaal is.

Los van deze specifieke examenvraag toont dit relaas opnieuw aan hoe je zelf op onderzoek kan gaan als je bij statistiek - of wiskunde in het algemeen - op een tegenstelling botst. Geef niet te snel op, probeer het probleem vanuit verschillende perspectieven te benaderen, en maak het zo concreet mogelijk.