Formularium - Statistiek deel 2

Work in progress...

1-2 Steekproevenverdeling

  • concepten (herhaling statistiek 1)
    • populatie
    • (populatieverdeling)
    • (populatie)parameter
    • toevalsvariabele (TV)
      • heeft een verdeling, gemiddelde, variantie, ...
      • symbolen altijd in hoofdletters ()
        • uitzondering:
    • trekking op zuiver toevallig wijze (ZTW)
      • met teruglegging
    • steekproef
      • steekproefgrootte
    • statistische maat
      • vast recept
      • input: een steekproef
      • output: exact één getal
      • symbolen altijd met kleine letters
      • voorbeelden
    • statistiek
      • gelijkaardig aan statistische maat
      • input: meerdere steekproeven van gelijke grootte
      • output: toevalsvariabele
        • dus niet meer één getal
        • dus symbolen met hoofdletters
      • voorbeelden
    • standaardfout / standard error (SE)
      • standaardafwijking van statistiek
    • steekproevenverdeling of
      • verdelingsfunctie van statistiek
    • (parameter)schatter
      • statistiek die populatieparameter benadert
      • voorbeelden
        • voor
        • voor
    • i.d. = identically distributed
    • i.i.d. = independent and identically distributed
      • onafhankelijk
      • identiek verdeeld
        • of
        • niet:
  • enumeratieve methode van steekproevenverdeling
    • bepaal verdeling door alle combinaties uit te schrijven
    • enkel haalbaar voor kleine

Twee studenten kiezen elk random één van de getallen 0, 1 of 2. Wat is de kans dat het gemiddelde van hun getallen kleiner is dan 1.5?

0 0 0.0
0 1 0.5
0 2 1.0
1 0 0.5
1 1 1.0
1 2 1.5
2 0 1.0
2 1 1.5
2 2 2.0

Gemiddelde en variantie van

  • met teruglegging: i.i.d.
    • en
      • dus schatting van populatiegemiddelde wordt beter en beter (kleinere spreiding) als groter wordt
  • zonder teruglegging: i.d.
    • eindige populatie
      • populatiecorrectiefactor (PCF):
    • oneindige populatie
      • zelfde als met teruglegging
      • gebruik als benadering vanaf

We trekken met teruglegging een steekproef van grootte 70 uit een eindige populatie van grootte 500 met populatiegemiddelde 220 en variantie 324. Wat is de standaarddeviatie van het steekproefgemiddelde?

  • gegeven
    • met teruglegging
  • gevraagd
  • oplossing
      • dus correctiefactor voor teruglegging nodig
  • antwoordmogelijkheden
    • A: met correctiefactor
    • B: met correctiefactor
    • C: zonder correctiefactor
    • D: zonder correctiefactor

Verdeling van

  • als
    • dan
  • als niet normaal verdeeld is
    • als
      • met teruglegging: i.i.d.
        • centrale limietstelling:
      • zonder teruglegging
        • eindige populatie
        • oneindige populatie of
          • centrale limietstelling:
    • als
      • andere oplossing (computersimulatie, ...)

Een psychologisch onderzoeker bestudeert reactietijden bij een cognitieve taak. De reactietijden zijn normaal verdeeld met verwachte waarde milliseconden en een standaardafwijking milliseconden. Als de onderzoeker een steekproef van 25 personen neemt, wat is dan de kans dat de gemiddelde reactietijd van deze 25 personen meer is dan 620 milliseconden?

  • gegeven
      • dus oneindige populatie
  • gevraagd
  • oplossing

De tijd die een patiënt doorbrengt bij de psycholoog heeft een exponentiële verdeling. De verwachte duur van een therapiesessie is 1 uur en de standaardafwijking is 1 uur. Een psycholoog heeft 70 patiënten in behandeling. Wat is de kans dat de gemiddelde therapiesessie langer duurt dan 50 minuten?

  • gegeven
    • : tijd bij psycholoog (in minuten)
  • gevraagd
  • oplossing
    • niet normaal verdeeld
    • oneindige populatie
    • centrale limietstelling:

Een farmabedrijf telt 3500 werknemers. Uit voorgaande tests is gebleken dat de gemiddelde IQ-score van de werknemers 110 is met een standaardafwijking gelijk aan 12. Je neemt een steekproef van 200 verschillende werknemers en je vraagt je af of hun IQ-scores representatief zijn voor de gehele werkvloer. Wat is de kans dat het gemiddeld IQ in je steekproef binnen 2 punten van het gemiddelde van het ganse bedrijf valt?

  • gegeven
    • : IQ van werknemers farmabedrijf
  • gevraagd
  • oplossing
    • niet normaal verdeeld
      • (IQ is meestal wel normaal verdeeld, maar hier niet gegeven)
    • zonder teruglegging
    • eindige populatie met
      • dus correctiefactor nodig

Toepassing: normale benadering voor binomiale verdeling

  • exacte oplossing vraagt vaak veel rekenwerk
  • alternatief: benadering via normale verdeling
  • merk op:
  • als en
    • met teruglegging: i.i.d.
      • centrale limietstelling
    • zonder teruglegging
      • eindige populatie ()
        • benadering niet geldig
      • oneindige populatie of
        • idem als met teruglegging
  • continuiteitscorrectie
Bionomiaal Normaal

6 procent van de bevolking is universele bloeddonor (kan bloed doneren aan iedereen). Een ziekenhuis heeft 10 universele bloeddonoren nodig. Er bieden zich 200 kandidaten aan om bloed te geven. Wat is de kans dat hier minstens 10 universele bloeddonoren bij zijn?

  • gegeven
    • : aantal universele bloeddonoren
  • gevraagd
  • oplossing
    • en
    • oneindige populatie
    • continuiteitscorrectie

Andere steekproevenverdelingen

  • als
    • dan
    • en dus
  • rest: zie formularium

Een socioloog onderzoekt de onderlinge verschillen in het aantal uren per week dat studenten aan een universiteit gemiddeld besteden aan sociale media. Eerder onderzoek heeft aangetoond dat de populatiestandaarddeviatie van het aantal uren dat studenten op sociale media doorbrengen 4 uur is. Voor een steekproef van 35 studenten blijkt de steekproefvariantie in hun gebruik van sociale media 20 uur te zijn. Hoe extreem is deze waarde, m.a.w. wat is de kans om een steekproefvariantie te observeren die minstens even groot is? (bij een even grote steekproef)

  • gegeven
    • : uren sociale media
  • gevraagd
  • oplossing
    • extra assumptie: normaal verdeeld

3 Schatters

  • kwaliteit
    • cf. schot in roos
    • zuiverheid
    • asymptotische zuiverheid
    • nauwkeurigheid / betrouwbaarheid
      • klein
    • mean squared error (MSE)
    • consistente schatter
      • dus als EN asymptotisch zuiver

Puntschatter

  • eigenschappen
    • zuiver
    • asymptotisch zuiver
    • consistent

Veronderstel dat i.i.d. toevalsvariabelen zijn met verwachte waarde . Welk van onderstaande schatters voor is zuiver? Welke schatter zou je verkiezen? En waarom?

  • zuiver
    • (1) ja
    • (2) ja:
    • (3) ja
    • (4) nee
  • beste keuze
    • (1) dit is
      • neemt elke toevalsvariabele mee in rekening
      • geeft elke variabele evenveel gewicht

95% intervalschatting voor

  • assumpties
    • gekende variantie
  • bereken betrouwbaarheidsinterval (BI)
    • ondergrens OG
    • bovengrens BG
  • interval waarbinnen zich in 95% van alle steekproeven bevindt
    • in symbolen:
  • verschillend per steekproef
  • symmetrisch rond
    • merk op: BIs zijn niet voor alle parameters symmetrisch (maar wel voor gemiddelde)
  • kritieke waarden
  • foutenmarge

Gegeven een normaalverdeelde toevalsvariabele 𝑋 met gekende populatievariantie. Waaraan is het 95% BI voor gelijk als je gebruikmaakt van onderstaande gegevens?

  • gegeven
  • gevraagd
    • 95% BI voor
  • oplossing

C-intervalschatting voor

  • assumpties
      • anders: zie vorig hoofdstuk over bepaling verdeling
    • gekende variantie
  • gelijkaardig aan hierboven, behalve ...
  • kritieke waarden
  • foutenmarge
  • hogere
    • lagere
    • grotere foutenmarge
    • breder interval
    • meer zekerheid
    • minder nauwkeurig
  • lagere
    • hogere
    • lagere foutenmarge
    • smaller interval
    • minder zekerheid
    • meer nauwkeurig

Gegeven een normaal verdeelde toevalsvariabele met gekende populatievariantie. Waaraan is het 99% BI voor gelijk als je gebruikmaakt van onderstaande gegevens?

  • gegeven
  • gevraagd
    • 99% BI voor
  • oplossing

Het 99% betrouwbaarheidsinterval zal in vorige oefening ... zijn aan/dan het 90% betrouwbaarheidsinterval

  • breder

C-intervalschatting voor andere parameters

  • zie formularium

Gegeven een normaal verdeelde variabele met onbekende variantie. Als je gebruikmaakt van onderstaande gegevens, hoeveel bedraagt dan een 80% BI voor ?

  • gegeven
  • gevraagd
    • 80% BI voor
  • oplossing

4 Hypothesetoetsing

  • nulhypothes
  • alternatieve hypothese
    • eenzijdig ()
    • tweezijdig ()
  • soorten toetsen
    • Z-toets (dit hoofdstuk)
      • parameter:
      • bekend
      • drie manieren
        • via kritieke waarden
        • via p-waarde
        • via BI
    • t-toets (zie HC 6)
      • parameter:
      • onbekend
    • andere grootheden (zie HC 7)
    • toets voor goodness of fit (zie HC 10)

Na het tweede zitexamen berekent een docent de verschilscores tussen de behaalde score in januari (J) en de behaalde score in september (S). Hij wil nagaan of studenten in september gemiddeld hoger scoren dan in januari. Formuleer de achterliggende .

Tweezijdige toetsen via kritieke waarden

  • stap 1: bepaal en
  • stap 2: bepaal en significantieniveau
    • groter: sneller verwerpen
    • kleiner: sneller aanvaarden
  • stap 3: kies geschikte toetsstatistiek (TS) en bijhorende steekproevenverdeling onder
  • stap 4: bereken toetsstatistiekwaarde (ts) onder
  • stap 5: welke ts waarden zijn verdacht (doen vermoeden dat waar is)?
  • stap 6: bereken kritieke waarden
    • bepalen aanvaardings- en verwerpingsgebied
    • tweezijdige : en
    • beslissing
      • in aanvaardingsgebied: aanvaard op significantieniveau
      • in verwerpingsgebied: verwerp op significantieniveau
        • synoniem: kritiek gebied

Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit m.b.v. kritieke waarden.

  • gegeven
  • gevraagd
    • hypothesetoetsing m.b.v. kritieke waarden
  • oplossing
    • stap 1
      • (tweezijdig)
    • stap 2
    • stap 3
    • stap 4
    • stap 5
      • sterk verschillend van nul is verdacht, dus beide staarten
    • stap 6
      • valt buiten dit bereik (in verwerpingsgebied)
      • dus verwerp op significantieniveau

Tweezijdige toetsen via -waarde

  • stap 1-5: idem
  • stap 6
    • p-waarde = overschrijdingskans: kans om - onder - een minstens even verdachte waarde te observeren
      • tweezijdige : tweemaal de kans op de kleinste staart
      • kleinste staart links:
      • kleinste staart rechts:
      • bij symmetrische verdelingen:
    • beslissing
      • als
        • behoorlijk verdacht om een waarde als tegen te komen als waar is
        • maar onze steekproef leverde wel die op
        • dus initiele assumptie () is waarschijnlijk fout
        • verwerp op significantieniveau
      • als
        • niet erg verdacht om een waarde als tegen te komen als waar is
        • aanvaard op significantieniveau
  • voordeel t.o.v. kritieke waarden
    • p-waarde is onafhankelijk van
    • gemakkelijker om test te herhalen voor verschillende waarden

Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit o.b.v. de p-waarde.

  • gegeven
  • gevraagd
    • hypothesetoetsing o.b.v. p-waarde
  • oplossing
    • stap 1
      • (tweezijdig)
    • stap 2
    • stap 3
    • stap 4
    • stap 5
      • sterk verschillend van nul is verdacht, dus beide staarten
    • stap 6
      • dus verwerp op significantieniveau

Tweezijdige toetsen via betrouwbaarheidsinterval (BI)

  • bereken BI voor
  • beslissing
    • : aanvaard
    • : verwerp
  • werkt enkel voor tweezijdige testen

Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit m.b.v. een betrouwbaarheidsinterval.

  • gegeven
  • gevraagd
    • hypothesetoetsing m.b.v. BI
  • oplossing
    • opstellen BI
    • beslissing
      • verwerp op significantieniveau

Eenzijdige toetsen

  • stap 5
    • welke staart verdacht?
        • rechterstaart
        • linkerstaart
  • stap 6
    • o.b.v. kritieke waarde
      • linkerstaart:
      • rechterstaart:
    • o.b.v. p-waarde
      • linkerstaart:
      • rechterstaart:
    • o.b.v. BI
      • (!) niet mogelijk

Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44.

(a) Waaraan zijn en gelijk? Welke conclusie trekt de onderzoeker?

(b) Hoeveel bedraagt de p-waarde? Wat is de conclusie van de onderzoeker?

  • gegeven
  • (a) gevraagd
    • conclusie
  • (a) oplossing
    • verwerp op significantieniveau 0.01
  • (b) gevraagd
    • p-waarde
    • conclusie
  • (b) oplossing
    • verwerp

5 Power

  • soorten fouten
    • type 1 fout:
    • type 2 fout:
  • power = onderscheidingsvermogen (OV) =
  • stappenplan
    • (1) hypothesetoetsing uitgaande van
      • bepaal verwerpingsgebied
    • (2) bereken kans op verwerping uitgaande van waarheid

(1) Een onderzoeker wil de volgende hypothese toetsen, met : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen uit een normaalverdeelde populatie met . Voor welke waarden van het steekproefgemiddelde zal de onderzoeker aanvaarden?

  • gegeven
  • gevraagd
    • aanvaardingsgebied
  • oplossing
    • o.b.v. kritieke waarden
      • alternatief: a.h.v. 95% BI voor
    • stap 1
      • (tweezijdig)
    • stap 2
    • stap 3
    • stap 4
    • stap 5
      • sterk verschillend van nul is verdacht, dus beide staarten
    • stap 6
    • aanvaardingsgebied

(2) Voortbouwend op de vorige even oefenen, hoeveel bedraagt het onderscheidingsvermogen als in werkelijkheid ?

  • vals
  • OV

Hoe power maximaliseren

  • grotere
    • wordt sneller verworpen
  • waarheid ligt verder weg van , in richting
  • kleinere
  • grotere

Power in praktijk

  • waarheid niet gekend tijdens experiment
  • kies i.f.v. gewenste power en effectgrootte

6 t-toetsen

Inferentie voor

  • tot nu toe (z-toets): normaalmodel met gekende
  • nieuw (t-toets): normaalmodel met onbekende
    • gebruik schatter
    • verder exact zelfde aanpak voor BI en hypothesetoetsing
  • student t-verdeling
    • lijkt op standaardnormale verdeling
      • met iets dikkere staarten
    • : degrees of freedom = vrijheidsgraden

Vergelijken van twee verwachtingen

Afhankelijke steekproeven
Onafhankelijke steekproeven
en bekend
en volledig onbekend
onbekend (homoscedasticiteit)

7 Inferentie met andere grootheden dan

8-9 Niet-parametrische statistiek

10 Goodness of fit