Formularium - Statistiek deel 2
Work in progress...
1-2 Steekproevenverdeling
- concepten (herhaling statistiek 1)
- populatie
- (populatieverdeling)
- (populatie)parameter
- toevalsvariabele (TV)
- heeft een verdeling, gemiddelde, variantie, ...
- symbolen altijd in hoofdletters ()
- uitzondering:
- trekking op zuiver toevallig wijze (ZTW)
- met teruglegging
- steekproef
- steekproefgrootte
- statistische maat
- vast recept
- input: een steekproef
- output: exact één getal
- symbolen altijd met kleine letters
- voorbeelden
- statistiek
- gelijkaardig aan statistische maat
- input: meerdere steekproeven van gelijke grootte
- output: toevalsvariabele
- dus niet meer één getal
- dus symbolen met hoofdletters
- voorbeelden
- standaardfout / standard error (SE)
- standaardafwijking van statistiek
- steekproevenverdeling of
- verdelingsfunctie van statistiek
- (parameter)schatter
- statistiek die populatieparameter benadert
- voorbeelden
- voor
- voor
- i.d. = identically distributed
- i.i.d. = independent and identically distributed
- onafhankelijk
- identiek verdeeld
- of
- niet:
- onafhankelijk
- enumeratieve methode van steekproevenverdeling
- bepaal verdeling door alle combinaties uit te schrijven
- enkel haalbaar voor kleine
Twee studenten kiezen elk random één van de getallen 0, 1 of 2. Wat is de kans dat het gemiddelde van hun getallen kleiner is dan 1.5?
0 | 0 | 0.0 |
0 | 1 | 0.5 |
0 | 2 | 1.0 |
1 | 0 | 0.5 |
1 | 1 | 1.0 |
1 | 2 | 1.5 |
2 | 0 | 1.0 |
2 | 1 | 1.5 |
2 | 2 | 2.0 |
Gemiddelde en variantie van
- met teruglegging: i.i.d.
-
en
- dus schatting van populatiegemiddelde wordt beter en beter (kleinere spreiding) als groter wordt
- zonder teruglegging: i.d.
- eindige populatie
- populatiecorrectiefactor (PCF):
- oneindige populatie
- zelfde als met teruglegging
- gebruik als benadering vanaf
We trekken met teruglegging een steekproef van grootte 70 uit een eindige populatie van grootte 500 met populatiegemiddelde 220 en variantie 324. Wat is de standaarddeviatie van het steekproefgemiddelde?
- gegeven
- met teruglegging
- gevraagd
- oplossing
-
- dus correctiefactor voor teruglegging nodig
-
-
-
- antwoordmogelijkheden
- A: met correctiefactor
- B: met correctiefactor
- C: zonder correctiefactor
- D: zonder correctiefactor
Verdeling van
- als
- dan
- als niet normaal verdeeld is
- als
- met teruglegging: i.i.d.
- centrale limietstelling:
- zonder teruglegging
- eindige populatie
- oneindige populatie of
- centrale limietstelling:
- eindige populatie
- met teruglegging: i.i.d.
- als
- andere oplossing (computersimulatie, ...)
- als
Een psychologisch onderzoeker bestudeert reactietijden bij een cognitieve taak. De reactietijden zijn normaal verdeeld met verwachte waarde milliseconden en een standaardafwijking milliseconden. Als de onderzoeker een steekproef van 25 personen neemt, wat is dan de kans dat de gemiddelde reactietijd van deze 25 personen meer is dan 620 milliseconden?
- gegeven
-
- dus oneindige populatie
-
- gevraagd
- oplossing
De tijd die een patiënt doorbrengt bij de psycholoog heeft een exponentiële verdeling. De verwachte duur van een therapiesessie is 1 uur en de standaardafwijking is 1 uur. Een psycholoog heeft 70 patiënten in behandeling. Wat is de kans dat de gemiddelde therapiesessie langer duurt dan 50 minuten?
- gegeven
- : tijd bij psycholoog (in minuten)
- gevraagd
- oplossing
- niet normaal verdeeld
- oneindige populatie
- centrale limietstelling:
Een farmabedrijf telt 3500 werknemers. Uit voorgaande tests is gebleken dat de gemiddelde IQ-score van de werknemers 110 is met een standaardafwijking gelijk aan 12. Je neemt een steekproef van 200 verschillende werknemers en je vraagt je af of hun IQ-scores representatief zijn voor de gehele werkvloer. Wat is de kans dat het gemiddeld IQ in je steekproef binnen 2 punten van het gemiddelde van het ganse bedrijf valt?
- gegeven
- : IQ van werknemers farmabedrijf
- gevraagd
- oplossing
-
niet normaal verdeeld
- (IQ is meestal wel normaal verdeeld, maar hier niet gegeven)
- zonder teruglegging
- eindige populatie met
- dus correctiefactor nodig
-
niet normaal verdeeld
Toepassing: normale benadering voor binomiale verdeling
-
-
- exacte oplossing vraagt vaak veel rekenwerk
- alternatief: benadering via normale verdeling
- merk op:
- als en
- met teruglegging: i.i.d.
- centrale limietstelling
- centrale limietstelling
- zonder teruglegging
- eindige populatie ()
- benadering niet geldig
- oneindige populatie of
- idem als met teruglegging
- eindige populatie ()
- met teruglegging: i.i.d.
- continuiteitscorrectie
Bionomiaal | Normaal |
---|---|
6 procent van de bevolking is universele bloeddonor (kan bloed doneren aan iedereen). Een ziekenhuis heeft 10 universele bloeddonoren nodig. Er bieden zich 200 kandidaten aan om bloed te geven. Wat is de kans dat hier minstens 10 universele bloeddonoren bij zijn?
- gegeven
- : aantal universele bloeddonoren
- gevraagd
- oplossing
- en
- oneindige populatie
- continuiteitscorrectie
Andere steekproevenverdelingen
- als
- dan
- en dus
- rest: zie formularium
Een socioloog onderzoekt de onderlinge verschillen in het aantal uren per week dat studenten aan een universiteit gemiddeld besteden aan sociale media. Eerder onderzoek heeft aangetoond dat de populatiestandaarddeviatie van het aantal uren dat studenten op sociale media doorbrengen 4 uur is. Voor een steekproef van 35 studenten blijkt de steekproefvariantie in hun gebruik van sociale media 20 uur te zijn. Hoe extreem is deze waarde, m.a.w. wat is de kans om een steekproefvariantie te observeren die minstens even groot is? (bij een even grote steekproef)
- gegeven
- : uren sociale media
- gevraagd
- oplossing
- extra assumptie: normaal verdeeld
3 Schatters
- kwaliteit
- cf. schot in roos
- zuiverheid
- asymptotische zuiverheid
- nauwkeurigheid / betrouwbaarheid
- klein
- mean squared error (MSE)
- consistente schatter
- dus als EN asymptotisch zuiver
Puntschatter
- eigenschappen
- zuiver
- asymptotisch zuiver
- consistent
Veronderstel dat i.i.d. toevalsvariabelen zijn met verwachte waarde . Welk van onderstaande schatters voor is zuiver? Welke schatter zou je verkiezen? En waarom?
- zuiver
- (1) ja
- (2) ja:
- (3) ja
- (4) nee
- beste keuze
- (1) dit is
- neemt elke toevalsvariabele mee in rekening
- geeft elke variabele evenveel gewicht
- (1) dit is
95% intervalschatting voor
- assumpties
- gekende variantie
- bereken betrouwbaarheidsinterval (BI)
- ondergrens OG
- bovengrens BG
- interval waarbinnen zich in 95% van alle steekproeven bevindt
- in symbolen:
- verschillend per steekproef
- symmetrisch rond
- merk op: BIs zijn niet voor alle parameters symmetrisch (maar wel voor gemiddelde)
- kritieke waarden
- foutenmarge
Gegeven een normaalverdeelde toevalsvariabele 𝑋 met gekende populatievariantie. Waaraan is het 95% BI voor gelijk als je gebruikmaakt van onderstaande gegevens?
- gegeven
- gevraagd
- 95% BI voor
- oplossing
C-intervalschatting voor
- assumpties
-
- anders: zie vorig hoofdstuk over bepaling verdeling
- gekende variantie
-
- gelijkaardig aan hierboven, behalve ...
- kritieke waarden
- foutenmarge
- hogere
- lagere
- grotere foutenmarge
- breder interval
- meer zekerheid
- minder nauwkeurig
- lagere
- hogere
- lagere foutenmarge
- smaller interval
- minder zekerheid
- meer nauwkeurig
Gegeven een normaal verdeelde toevalsvariabele met gekende populatievariantie. Waaraan is het 99% BI voor gelijk als je gebruikmaakt van onderstaande gegevens?
- gegeven
- gevraagd
- 99% BI voor
- oplossing
Het 99% betrouwbaarheidsinterval zal in vorige oefening ... zijn aan/dan het 90% betrouwbaarheidsinterval
- breder
C-intervalschatting voor andere parameters
- zie formularium
Gegeven een normaal verdeelde variabele met onbekende variantie. Als je gebruikmaakt van onderstaande gegevens, hoeveel bedraagt dan een 80% BI voor ?
- gegeven
- gevraagd
- 80% BI voor
- oplossing
4 Hypothesetoetsing
- nulhypothes
- alternatieve hypothese
- eenzijdig ()
- tweezijdig ()
- soorten toetsen
- Z-toets (dit hoofdstuk)
- parameter:
- bekend
- drie manieren
- via kritieke waarden
- via p-waarde
- via BI
- t-toets (zie HC 6)
- parameter:
- onbekend
- andere grootheden (zie HC 7)
- toets voor goodness of fit (zie HC 10)
- Z-toets (dit hoofdstuk)
Na het tweede zitexamen berekent een docent de verschilscores tussen de behaalde score in januari (J) en de behaalde score in september (S). Hij wil nagaan of studenten in september gemiddeld hoger scoren dan in januari. Formuleer de achterliggende .
Tweezijdige toetsen via kritieke waarden
- stap 1: bepaal en
- stap 2: bepaal en significantieniveau
- groter: sneller verwerpen
- kleiner: sneller aanvaarden
- stap 3: kies geschikte toetsstatistiek (TS) en bijhorende steekproevenverdeling onder
- stap 4: bereken toetsstatistiekwaarde (ts) onder
- stap 5: welke ts waarden zijn verdacht (doen vermoeden dat waar is)?
- stap 6: bereken kritieke waarden
- bepalen aanvaardings- en verwerpingsgebied
- tweezijdige : en
- beslissing
- in aanvaardingsgebied: aanvaard op significantieniveau
-
in verwerpingsgebied: verwerp op significantieniveau
- synoniem: kritiek gebied
Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit m.b.v. kritieke waarden.
- gegeven
- gevraagd
- hypothesetoetsing m.b.v. kritieke waarden
- oplossing
- stap 1
- (tweezijdig)
- stap 2
- stap 3
- stap 4
- stap 5
- sterk verschillend van nul is verdacht, dus beide staarten
- stap 6
- valt buiten dit bereik (in verwerpingsgebied)
- dus verwerp op significantieniveau
- stap 1
Tweezijdige toetsen via -waarde
- stap 1-5: idem
- stap 6
- p-waarde = overschrijdingskans: kans om - onder - een minstens even verdachte waarde te observeren
- tweezijdige : tweemaal de kans op de kleinste staart
- kleinste staart links:
- kleinste staart rechts:
- bij symmetrische verdelingen:
- beslissing
- als
- behoorlijk verdacht om een waarde als tegen te komen als waar is
- maar onze steekproef leverde wel die op
- dus initiele assumptie () is waarschijnlijk fout
- verwerp op significantieniveau
- als
- niet erg verdacht om een waarde als tegen te komen als waar is
- aanvaard op significantieniveau
- als
- p-waarde = overschrijdingskans: kans om - onder - een minstens even verdachte waarde te observeren
- voordeel t.o.v. kritieke waarden
- p-waarde is onafhankelijk van
- gemakkelijker om test te herhalen voor verschillende waarden
Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit o.b.v. de p-waarde.
- gegeven
- gevraagd
- hypothesetoetsing o.b.v. p-waarde
- oplossing
- stap 1
- (tweezijdig)
- stap 2
- stap 3
- stap 4
- stap 5
- sterk verschillend van nul is verdacht, dus beide staarten
- stap 6
- dus verwerp op significantieniveau
- stap 1
Tweezijdige toetsen via betrouwbaarheidsinterval (BI)
- bereken BI voor
- beslissing
- : aanvaard
- : verwerp
- werkt enkel voor tweezijdige testen
Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44. Welke beslissing neem je? Voer de hypothesetoets uit m.b.v. een betrouwbaarheidsinterval.
- gegeven
- gevraagd
- hypothesetoetsing m.b.v. BI
- oplossing
- opstellen BI
- beslissing
- verwerp op significantieniveau
- opstellen BI
Eenzijdige toetsen
- stap 5
- welke staart verdacht?
-
- rechterstaart
-
- linkerstaart
-
- welke staart verdacht?
- stap 6
- o.b.v. kritieke waarde
- linkerstaart:
- rechterstaart:
- o.b.v. p-waarde
- linkerstaart:
- rechterstaart:
- o.b.v. BI
- (!) niet mogelijk
- o.b.v. kritieke waarde
Een onderzoeker beschikt over normaalverdeelde gegevens en wil de volgende hypothese toetsen met en : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen; het steekproefgemiddelde in deze steekproef bedraagt 44.
(a) Waaraan zijn en gelijk? Welke conclusie trekt de onderzoeker?
(b) Hoeveel bedraagt de p-waarde? Wat is de conclusie van de onderzoeker?
- gegeven
- (a) gevraagd
- conclusie
- (a) oplossing
- verwerp op significantieniveau 0.01
- (b) gevraagd
- p-waarde
- conclusie
- (b) oplossing
- verwerp
5 Power
- soorten fouten
- type 1 fout:
- type 2 fout:
- type 1 fout:
- power = onderscheidingsvermogen (OV) =
- stappenplan
- (1) hypothesetoetsing uitgaande van
- bepaal verwerpingsgebied
- (2) bereken kans op verwerping uitgaande van waarheid
- (1) hypothesetoetsing uitgaande van
(1) Een onderzoeker wil de volgende hypothese toetsen, met : vs. . Om de hypothese te toetsen trekt de onderzoeker een steekproef van 64 personen uit een normaalverdeelde populatie met . Voor welke waarden van het steekproefgemiddelde zal de onderzoeker aanvaarden?
- gegeven
- gevraagd
- aanvaardingsgebied
- oplossing
- o.b.v. kritieke waarden
- alternatief: a.h.v. 95% BI voor
- stap 1
- (tweezijdig)
- stap 2
- stap 3
- stap 4
- stap 5
- sterk verschillend van nul is verdacht, dus beide staarten
- stap 6
- aanvaardingsgebied
- o.b.v. kritieke waarden
(2) Voortbouwend op de vorige even oefenen, hoeveel bedraagt het onderscheidingsvermogen als in werkelijkheid ?
- vals
- OV
Hoe power maximaliseren
- grotere
- wordt sneller verworpen
- waarheid ligt verder weg van , in richting
- kleinere
- grotere
Power in praktijk
- waarheid niet gekend tijdens experiment
- kies i.f.v. gewenste power en effectgrootte
6 t-toetsen
Inferentie voor
- tot nu toe (z-toets): normaalmodel met gekende
- nieuw (t-toets): normaalmodel met onbekende
- gebruik schatter
- verder exact zelfde aanpak voor BI en hypothesetoetsing
- student t-verdeling
- lijkt op standaardnormale verdeling
- met iets dikkere staarten
-
: degrees of freedom = vrijheidsgraden
- lijkt op standaardnormale verdeling