Opgepast: dit is het oude formularium dat hoort bij de oude cursus van prof. Van Mechelen
Inleiding
- vergeet niet de hoofdzaken van deel 1 op te frissen
Statistische modellering
|
aantal events |
wachttijd tot eerste event |
discreet |
Bin |
Geo |
~continu |
Poisson |
Expon |
Discreet
- Bernoulli
- Binomiaal
-
-
-
-
-
-
-
-
- proportie successen
- moeilijk cumulatief uit te rekenen voor grote
- benader met Poisson- of Normaalverdeling
- Geometrisch
(Quasi-)Continu
- Poisson
- voorwaarden
- proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
- constante kans als alle stukken even groot
-
stukken:
-
is geen macht maar een specifieke notatiewijze
- gebeurtenis onafhankelijk van gebeurtenissen in ander stuk medium
-
-
-
-
-
-
-
- Uniform
- Normaal
-
-
-
-
-
-
-
-
- symmetrisch
- standaardnormaalmodel:
-
-
-
-
- Bivariaat Normaal
- Exponentieel
Benaderingen
-
als en
-
als (sneller als )
-
als
-
als
-
als
Complexe modellen
- mengselmodellen
- 2 componenten
- meerdere componenten
- regressiemodellen
- enkelvoudig
- meervoudig
- hierarchisch
Keuze van statistieken
- statistiek voor
- steekproef met grootte
- vast recept
- uitkomst = 1 getal o.b.v. steekproef
-
- analogieschatters
- als definities van maten tussen steekproef en populatie gelijk lopen
-
-
-
- kleinste kwadratenschatters
- likelihood
- zelfde concept als kans, maar dan na de feiten
- onafhankelijk
- maximum likelihood (ML) schatter
-
- gebruik
table
functie van TI-30XS voor snelle berekening
- goodness of fit
- absoluut
- partitioneer waardengebied van de variabele(n) in categorieen
- variabele(n) kan zijn, of combinatie , of ...
- weinig waarden -> 1 categorie per waarde
-
: geobserveerde frequenties in categorie
-
: verwachte frequenties in categorie
- Pearson Chi-kwadraat toetsstatistiek
-
-
: aantal modelparameters geschat o.b.v. gegevens
- voorwaarden
-
- gebaseerd op onafhankelijke observaties
- toepassing: test onafhankelijkheid tussen en
-
-
- bonus: gemakkelijk berekenen
-
-
-
- interpretatie: hoeveel cellen vrij kunnen ingevuld worden eens de marginalen bekend zijn
- voorbeeld: tabel
- relatief
-
: restrictieve model
-
: algemene model
- (1a) bereken ML schatters van params voor
- (1b) bereken
- (2a) bereken ML schatters van params voor
- (2b) bereken
- (3) bereken likelihood ratio
- (4) bereken waar
-
: aantal vastgeklikte params in t.o.v.
- uitbreiding is zinvol als
- hypothesetoetsing: enkel rechtse staart verdacht voor
Bepalen van de steekproevenverdeling van statistieken
- steekproevenverdeling van statistiek = kansmassafunctie of dichtheidsfunctie
- standaardfout van statistiek :
- enumeratieve methode
- geschikt als en klein zijn
- deductieve methode
- exact
- ongeacht verdeling van
-
(indien 's identiek verdeeld)
- ZTW / met teruglegging
- zonder teruglegging
-
- benaderend
- centrale limietstelling
-
willekeurige verdeling
- asymptotisch normaal verdeeld
- vuistregel: als
- convergeert sneller bij meer symmetrische verdelingen
- goodness of fit
- zie Keuze van statistieken
- simulatiemethode = parametrische bootstrap
- genereer steekproeven o.b.v. model met computer
- voor oefeningen wordt meestal data gegeven
- benader onbekende model params met schatters
- voorbeelden
- zie tabellen
- Fisher-z transformatie
Parameterschatting
Puntschatting
-
- zuiver:
- asymptotisch zuivere familie:
- zuiver asymptotisch zuiver
- voorbeeld: voor
- gemiddelde gekwadrateerde fout = mean squared error
-
- zuiver
- asymptotisch zuiver
- cf.
- uniforme minimale variantie
-
consistente familie
- voorbeeld: bij steekproeftrekking op ZTW
Intervalschatting
-
en
- betrouwbaarheidscoefficient
- typisch of
- trade-off
- betrouwbaarheid: ligt parameter binnen interval?
- nauwkeurigheid: is interval niet te ruim?
-
100% betrouwbaar, maar oneindig breed (BI = )
-
0% betrouwbaar, maar oneindig smal (BI = )
- betrouwbaarheidsinterval (BI)
-
- voorbeeld
- trek 100 steekproeven en bereken voor elke steekproef een BI
- als zullen gemiddeld intervallen bevatten en niet
- pivotale grootheid
- functie van steekproefgegevens ( en populatieparameter
- (!) geen andere onbekenden toegelaten
- concept enkel relevant voor betrouwbaarheidsintervallen
- niet altijd symmetrisch
- stappenplan
- gegeven
- populatie
- toevalsvariabele = betekenis ~ verdeling
- wat bekend, wat onbekend?
- steekproef
- gevraagd
- oplossing
- kies gepaste pivotale grootheid met
- dan weten we dat
- bepaal uit zodat
- zoek in tabellen
- zoek in tabellen
-
-
-
-
- resultaat:
- vul steekproefgegevens in
- BI:
- conclusie: formuleer antwoord op vraag
- voorbeeld
- gegeven
- gevraagd
- oplossing
- conclusie: is een 95% BI voor
Hypothesetoetsing
- cf. bewijs uit het ongerijmde
- Neem voor het omgekeerde van wat je wil "bewijzen"
- Stel dat toch waar is
- Is het resultaat dan
een contradictie? iets heel onwaarschijnlijk?
- Zo ja, verwerpen en aanvaarden
- (1) formuleer hypotheses
- nulhypothese
- enkelvoudige nulhypothese = punt-nulhypothese
- 1 model zonder onbekende parameters
- voorbeeld: met
- samengestelde nulhypothese
- verzameling modellen met onbekende parameter(s)
- voorbeelden
- wat met lastpostparameter?
- optie 1: kies toetsstatistiek met steekproevenverdeling onafhankelijk van die parameter
- optie 2: consistent met
-
= supremum = kleinste bovengrens
- alternatieve hypothese
- (2) kies toetsstatistiek
- geen onbekende parameters!
- verifieer assumpties of voeg er extra toe
- (3) bepaal steekproevenverdeling van uitgaande van
- (4) bereken waarde van voor geobserveerde gegevens:
- (5) bepaal -waarde
- de kans, uitgaande van , op een uitkomst dat zo extreem is of extremer dan
- eenzijdige -> 1 verdachte staart
- tweezijdige -> 1 (o.a. ) of 2 verdachte staarten
- 1 staart verdacht: -waarde = oppervlakte van die staart
- 2 staarten verdacht: -waarde = 2x oppervlakte van kleinste staart
- dus de staart aan dezelfde kant van de mediaan als
- (6) vergelijk -waarde met kritische waarde
-
: significant toetsingsresultaat
- (7) beslissing
-
: verwerp
-
: aanvaard
- verwerpen is gemakkelijker dan aanvaarden
- geliefkoosde theorie vaak in
-
-toets
Beslissingsprocedure
- achtergrondinfo: typische confusion matrix
|
voorspelling + |
voorspelling - |
feitelijk + |
true positive (TP) |
false negative (FN) |
feitelijk - |
false positive (FP) |
true negative (TN) |
- (!) contraintuitief voor hypothesetesten
- positieve voorspelling = verwerp
- feitelijk waar = valse
|
verwerp
|
verwerp niet |
vals |
TP, OV |
FN, type II fout |
waar |
FP, type I fout |
TN |
- wel logisch vanuit perspectief
|
aanvaard
|
aanvaard niet |
waar |
TP, OV |
FN, type II fout |
vals |
FP, type I fout |
TN |
- kans type I fout
- P(verwerp waar)
-
(false positive rate)
-
voor enkelvoudige nulhypothesen
-
voor samengestelde nulhypothesen
- TODO dubbelcheck
- kans type II fout
- = P(aanvaard vals)
- = (false negative rate)
- (1) bereken aanvaardingsinterval o.b.v.
- (2) bereken kans om binnen dat interval te liggen o.b.v. ware model
- onderscheidingsvermogen (OV) = power
- P(verwerp vals)
-
(true positive rate of sensitivity)
-
-
- typische doelstelling voor een gepostuleerd waar model:
- hoe halen?
- extremere "ware"
-
-
- minimale kan vooraf bepaald worden i.f.v. en gewenste OV
- andere
- probleem: hangt af van
- afstand tussen en ware model
-
- OV
- oplossing: effectgrootte
- voorbeelden
-
- voor t-toets:
- voor samenhang:
Slotbedenkingen
- verband BI en tweezijdige hypothesetoetsing
-
vs
- bereken () BI rond
- verwerp op significantieniveau BI