Formularium - Statistiek deel 2

Opgepast: dit is het oude formularium dat hoort bij de oude cursus van prof. Van Mechelen

Inleiding

  • vergeet niet de hoofdzaken van deel 1 op te frissen

Statistische modellering

aantal events wachttijd tot eerste event
discreet Bin Geo
~continu Poisson Expon

Discreet

  • Bernoulli
  • Binomiaal
    • proportie successen
    • moeilijk cumulatief uit te rekenen voor grote
      • benader met Poisson- of Normaalverdeling
  • Geometrisch

(Quasi-)Continu

  • Poisson
    • voorwaarden
      • proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
        • constante kans als alle stukken even groot
        • stukken:
          • is geen macht maar een specifieke notatiewijze
      • gebeurtenis onafhankelijk van gebeurtenissen in ander stuk medium
  • Uniform
    • symmetrisch
  • Normaal
      • klokvormig / Gausscurve
    • symmetrisch
    • standaardnormaalmodel:
    • normale verdeling
  • Bivariaat Normaal
    • onafhankelijk
      • fout in formule?
  • Exponentieel

Benaderingen

  • als en
  • als (sneller als )
    • voor proporties :
  • als
  • als
  • als

Complexe modellen

  • mengselmodellen
    • 2 componenten
    • meerdere componenten
  • regressiemodellen
    • enkelvoudig
    • meervoudig
    • hierarchisch

Keuze van statistieken

  • statistiek voor
    • steekproef met grootte
    • vast recept
    • uitkomst = 1 getal o.b.v. steekproef
  • analogieschatters
    • als definities van maten tussen steekproef en populatie gelijk lopen
      • niet gegarandeerd zuiver
  • kleinste kwadratenschatters
  • likelihood
    • zelfde concept als kans, maar dan na de feiten
    • onafhankelijk
  • maximum likelihood (ML) schatter
    • gebruik table functie van TI-30XS voor snelle berekening
  • goodness of fit
    • absoluut
      • partitioneer waardengebied van de variabele(n) in categorieen
        • variabele(n) kan zijn, of combinatie , of ...
        • weinig waarden -> 1 categorie per waarde
      • : geobserveerde frequenties in categorie
      • : verwachte frequenties in categorie
      • Pearson Chi-kwadraat toetsstatistiek
        • : aantal modelparameters geschat o.b.v. gegevens
        • voorwaarden
          • gebaseerd op onafhankelijke observaties
      • toepassing: test onafhankelijkheid tussen en
        • bonus: gemakkelijk berekenen
          • interpretatie: hoeveel cellen vrij kunnen ingevuld worden eens de marginalen bekend zijn
          • voorbeeld: tabel
    • relatief
      • : restrictieve model
      • : algemene model
      • (1a) bereken ML schatters van params voor
      • (1b) bereken
      • (2a) bereken ML schatters van params voor
      • (2b) bereken
      • (3) bereken likelihood ratio
      • (4) bereken waar
        • : aantal vastgeklikte params in t.o.v.
        • uitbreiding is zinvol als
    • hypothesetoetsing: enkel rechtse staart verdacht voor

Bepalen van de steekproevenverdeling van statistieken

  • steekproevenverdeling van statistiek = kansmassafunctie of dichtheidsfunctie
  • standaardfout van statistiek :
  • enumeratieve methode
    • geschikt als en klein zijn
  • deductieve methode
    • exact
      • ongeacht verdeling van
        • (indien 's identiek verdeeld)
        • ZTW / met teruglegging
          • gevolg: i.i.d.
        • zonder teruglegging
            • goede benadering als
        • (als onbekend)
    • benaderend
      • centrale limietstelling
        • willekeurige verdeling
          • asymptotisch normaal verdeeld
          • vuistregel: als
          • convergeert sneller bij meer symmetrische verdelingen
      • goodness of fit
        • zie Keuze van statistieken
  • simulatiemethode = parametrische bootstrap
    • genereer steekproeven o.b.v. model met computer
      • voor oefeningen wordt meestal data gegeven
      • benader onbekende model params met schatters
  • voorbeelden
    • zie tabellen
    • Fisher-z transformatie
      • monotoon:

Parameterschatting

Puntschatting

  • zuiver:
    • voorbeelden
      • voor
      • voor
  • asymptotisch zuivere familie:
    • zuiver asymptotisch zuiver
    • voorbeeld: voor
  • gemiddelde gekwadrateerde fout = mean squared error
    • zuiver
    • asymptotisch zuiver
    • cf.
  • uniforme minimale variantie
    • voorbeeld: voor als
  • consistente familie

    • voorbeeld: bij steekproeftrekking op ZTW

Intervalschatting

  • en
  • betrouwbaarheidscoefficient
    • typisch of
    • trade-off
      • betrouwbaarheid: ligt parameter binnen interval?
      • nauwkeurigheid: is interval niet te ruim?
      • 100% betrouwbaar, maar oneindig breed (BI = )
      • 0% betrouwbaar, maar oneindig smal (BI = )
  • betrouwbaarheidsinterval (BI)
    • voorbeeld
      • trek 100 steekproeven en bereken voor elke steekproef een BI
      • als zullen gemiddeld intervallen bevatten en niet
  • pivotale grootheid
    • functie van steekproefgegevens ( en populatieparameter
    • (!) geen andere onbekenden toegelaten
    • concept enkel relevant voor betrouwbaarheidsintervallen
  • niet altijd symmetrisch
  • stappenplan
    • gegeven
      • populatie
        • toevalsvariabele = betekenis ~ verdeling
        • wat bekend, wat onbekend?
      • steekproef
        • wat bekend?
    • gevraagd
      • () BI voor
    • oplossing
      • kies gepaste pivotale grootheid met
      • dan weten we dat
      • bepaal uit zodat
      • zoek in tabellen
      • zoek in tabellen
      • resultaat:
      • vul steekproefgegevens in
      • BI:
    • conclusie: formuleer antwoord op vraag
  • voorbeeld
    • gegeven
      • populatie
        • : aantal blabla
        • onbekend
      • steekproef
    • gevraagd
      • 95% BI voor
      • dus
      • dus
    • oplossing
      • BI:
    • conclusie: is een 95% BI voor

Hypothesetoetsing

  • cf. bewijs uit het ongerijmde
    • Neem voor het omgekeerde van wat je wil "bewijzen"
    • Stel dat toch waar is
    • Is het resultaat dan een contradictie? iets heel onwaarschijnlijk?
    • Zo ja, verwerpen en aanvaarden
  • (1) formuleer hypotheses
    • nulhypothese
      • enkelvoudige nulhypothese = punt-nulhypothese
        • 1 model zonder onbekende parameters
        • voorbeeld: met
      • samengestelde nulhypothese
        • verzameling modellen met onbekende parameter(s)
        • voorbeelden
          • met
            • is lastpost-parameter
          • met
            • is lastpost-parameter
        • wat met lastpostparameter?
          • optie 1: kies toetsstatistiek met steekproevenverdeling onafhankelijk van die parameter
          • optie 2: consistent met
            • = supremum = kleinste bovengrens
    • alternatieve hypothese
      • tweezijdig:
      • eenzijdig:
        • risico op opportunisme
  • (2) kies toetsstatistiek
    • geen onbekende parameters!
    • verifieer assumpties of voeg er extra toe
  • (3) bepaal steekproevenverdeling van uitgaande van
  • (4) bereken waarde van voor geobserveerde gegevens:
  • (5) bepaal -waarde
    • de kans, uitgaande van , op een uitkomst dat zo extreem is of extremer dan
    • eenzijdige -> 1 verdachte staart
    • tweezijdige -> 1 (o.a. ) of 2 verdachte staarten
    • 1 staart verdacht: -waarde = oppervlakte van die staart
    • 2 staarten verdacht: -waarde = 2x oppervlakte van kleinste staart
      • dus de staart aan dezelfde kant van de mediaan als
  • (6) vergelijk -waarde met kritische waarde
    • : significant toetsingsresultaat
  • (7) beslissing
    • : verwerp
    • : aanvaard
    • verwerpen is gemakkelijker dan aanvaarden
      • geliefkoosde theorie vaak in
  • -toets
    • vs
    • toetsstatistiek

Beslissingsprocedure

voorspelling + voorspelling -
feitelijk + true positive (TP) false negative (FN)
feitelijk - false positive (FP) true negative (TN)
  • (!) contraintuitief voor hypothesetesten
    • positieve voorspelling = verwerp
    • feitelijk waar = valse
verwerp verwerp niet
vals TP, OV FN, type II fout
waar FP, type I fout TN
  • wel logisch vanuit perspectief
aanvaard aanvaard niet
waar TP, OV FN, type II fout
vals FP, type I fout TN
  • kans type I fout
    • P(verwerp waar)
    • (false positive rate)
    • voor enkelvoudige nulhypothesen
    • voor samengestelde nulhypothesen
    • TODO dubbelcheck
  • kans type II fout
    • = P(aanvaard vals)
    • = (false negative rate)
    • (1) bereken aanvaardingsinterval o.b.v.
      • dus waar
    • (2) bereken kans om binnen dat interval te liggen o.b.v. ware model
  • onderscheidingsvermogen (OV) = power
    • P(verwerp vals)
    • (true positive rate of sensitivity)
    • typische doelstelling voor een gepostuleerd waar model:
      • hoe halen?
        • extremere "ware"
          • minimale kan vooraf bepaald worden i.f.v. en gewenste OV
        • andere
  • probleem: hangt af van
    • afstand tussen en ware model
    • OV
  • oplossing: effectgrootte
    • voorbeelden
      • voor t-toets:
      • voor samenhang:

Slotbedenkingen

  • verband BI en tweezijdige hypothesetoetsing
    • vs
    • bereken () BI rond
    • verwerp op significantieniveau BI