Formularium - Statistiek deel 1

Opgepast: dit is het oude formularium dat hoort bij de oude cursus van prof. Van Mechelen

Beschrijvende statistiek

Univariaat

  • observaties van :
  • waardengebied van :
Frequentiefuncties
  • frequentie
  • proportie
    • notatie:
  • cumulatieve frequentie
  • cumulatieve proportie
    • notatie:
      • ongelijkheid in tweede term is strikt ( en niet )
  • -de kwantiel
    • geval 1:
    • geval 2:
      • andere cursussen statistiek hebben vaak andere definities voor geval 2
    • algemene formule voor de twee gevallen
  • percentielen
  • decielen
  • kwartielen
Centrale tendensmaten
  • modus / modi
    • unimodaal, bimodaal, multimodaal
  • mediaan
    • als oneven
    • als even
      • veronderstelling: gesorteerd van klein naar groot
  • gemiddelde
    • is een optimum, maar niet uniek
    • is het (unieke) optimum
  • Steiner:
Spreidingsmaten
  • bereik
  • interkwartielbereik
  • variantie
  • standaarddeviatie
  • Tchebychev ()
    • ongeacht verdeling van
  • boxplot
    • variant 1:
    • variant 2: of of
      • incl. uitbijters buiten de snorharen
Transformaties
  • algemeen
  • lineaire transformaties
    • Z-transformatie
    • z-score
      • hoeveel standaarddeviaties boven of onder ligt

Bivariaat

  • observaties van :
  • observaties van :
    • gepaarde gegevens:
  • mogelijke waarden van :
  • mogelijke waarden van :
  • achtergrondinfo: long data vs wide data
    • omzetting
      • long -> wide: pivot
      • wide -> long: melt
kleur seizoen personage
rood 1 Jason
blauw 1 Billy
geel 1 Trini
roze 1 Kimberly
zwart 1 Zack
groen 1 Tommy
rood 2 Rocky
blauw 2 Billy
geel 2 Aisha
roze 2 Kimberly
zwart 2 Adam
wit 2 Tommy

Tabel 1 voorbeeld long data

kleur seizoen 1 seizoen 2
rood Jason Rocky
blauw Billy Billy
geel Trini Aisha
roze Kimberly Kimberly
zwart Zack Adam
groen Tommy -
wit - Tommy

Tabel 2a voorbeeld wide data

seizoen rood blauw geel roze zwart groen wit
1 Jason Billy Trini Kimberly Zack Tommy -
2 Rocky Billy Aisha Kimberly Adam - Tommy

Tabel 2b voorbeeld wide data, alternatief

Frequentiefuncties
    • voorstelling: bivariate frequentietabel = contingentietabel
  • marginale frequentiefuncties
    • voorstelling: bivariate proportietabel
  • marginale proportiefuncties
  • (rij-)conditionele proporties
    • assumptie: X in rijen, Y in kolommen
  • (kolom-)conditionele proporties
    • assumptie: X in rijen, Y in kolommen
  • absolute vs conditionele kanstabellen herkennen
    • absoluut als 1 of n als totaal
    • conditioneel als 1 of n overal in somrij of overal in somkolom
Centrale tendensmaten
  • conditionele gemiddelde
Spreidingsmaten
  • conditionele variantie
Associatiematen
  • kwalitatieve variabelen met bijectie:
    • proportie overeenstemming
  • kwantitatieve variabelen
    • covariantie
    • (productmoment)correlatie
Optimale voorspelling
  • terminologie
    • input, onafhankelijke variabele, voorspeller, predictor
    • output, afhankelijke variabele, voorspelde, criterium
    • zowel als kunnen beide rollen aannemen
      • met als predictor
      • met als predictor
  • gekwadrateerde standaardfout van estimatie of foutenvariantie
    • Engels: mean squared error (MSE)
  • verklaarde of voorspelde variantie
  • algemene optimale voorspelling
    • minimaliseert
  • optimale lineaire voorspelling
    • trade-off: hogere in ruil voor simpelere vergelijking
      • regression to the mean:
    • regressievergelijking
    • regressieconstante
      • loopt door punt
    • regressiegewicht
    • determinatiecoefficient
        • verdeelsleutel tussen verklaarde en onverklaarde variantie
      • zegt enkel iets over mogelijk lineair verband tussen en
        • verband kan ook kwadratisch, logaritmisch, ... of onbestaand zijn
    • correlation causation
      • spurious correlation: geen inhoudelijke betekenis
      • causaal verband
        • direct: of
        • indirect: of
        • derde (direct of indirect): en
    • logaritmisch verband
      • startwaarde
      • groeifactor
Somvariabelen
  • centrale tendensmaten
  • spreidingmaten
  • associatiematen

Multivariaat

  • conditioneel werken
    • kies vaste waarden voor alle variabelen behalve de twee waar je mee werkt
  • kwantitatief: optimale lineaire voorspelling
    • meervoudige regressie:
    • gekwadrateerde meervoudige correlatiecoefficient
  • twee binaire kwalitatieve predictorvariabelen
    • dummyvariabelen met voor kwalitatieve variabelen
    • tabel met
    • rij/kolom gemiddelden
    • geen hoofdeffect (HE) van
      • algemeen: geen hoofdeffect
    • zonder interactie
      • evenwijdige lijnstukken in grafiek
      • bij meer dan 2 waarden: stelling geldig in elke deeltabel
    • met interactie
      • ordinaal: lijnstukken snijden/raken op geen enkele grafiek
        • orde blijft behouden
      • disordinaal: lijnstukken snijden/raken op min 1 grafiek
        • orde wisselt om
    • 8 mogelijke combinaties van HE , HE , interactie

Inductieve statistiek

  • heel gelijkaardig aan deel beschrijvende statistiek
    • belangrijkste verschillen
      • hier geen notie van frequentie en afgeleide formules
      • formules vaak verschillend voor discreet en continu
      • geen optimale voorspelling
      • enkel uni- en bivariaat, niet algemeen multivariaat
  • populatie
    • (ongeordende) verzameling
  • steekproef
    • geordende verzameling
      • soms ongeordend als expliciet vermeld
    • trekking uit populatie
    • met/zonder teruglegging
  • steekproeftrekking op zuiver toevallige wijze (ZTW)
    • met teruglegging
    • elke steekproef van grootte heeft evenveel kans om getrokken te worden
    • voldoende maar geen noodzakelijke voorwaarde voor statistische inferentie
    • simulatie via randint(1, n) op rekenmachine
      • toevalszaadje of random seed: interne startwaarde
        • expliciet kiezen maakt de simulatie deterministisch
  • representatieve steekproef
    • lijkt op populatie m.b.t. 1 of meerdere aspecten
    • niet gegarandeerd door trekking op ZTW (en ook niet omgekeerd)
  • gestratificeerde steekproeftrekking
    • verdeel populatie in homogene strata
    • trek substeekproef per strata
    • voeg substeekproeven samen
    • garandeert representativiteit
    • niet op ZTW
  • selecte steekproeven
    • trek enkel uit specifieke deelpopulatie (bv. WEIRD)

Univariaat

Verdelingsfuncties
Discrete toevalsvariabele
  • waardengebied van :
  • kansmassafunctie
    • notatie:
  • cumulatieve verdelingsfunctie
    • notatie:
  • -de populatiekwantiel
    • berekening: cf. beschrijvende statistiek
Continue toevalsvariabele
  • dichtheidsfunctie
    • notatie: niet
  • cumulatieve verdelingsfunctie
    • notatie:
  • -de populatiekwantiel (enkel indien continu)
Gemeenschappelijk
  • percentielen
  • decielen
  • kwartielen
Centrale tendensmaten
  • populatiemodus / populatiemodi
  • populatiemediaan
  • populatiegemiddelde
  • verwachte waarde of expected value
  • Steiner:
Spreidingsmaten
  • bereik
    • min en max bestaan hier niet altijd
  • interkwartielbereik
  • populatievariantie
  • populatiestandaarddeviatie
  • Tchebychev ()
    • ongeacht verdeling van
Transformaties
  • algemeen
  • lineaire transformaties

Bivariaat

Verdelingsfuncties
Discrete toevalsvariabelen
  • mogelijke waarden van :
  • mogelijke waarden van :
    • gepaarde gegevens:
  • bivariate kansmassafunctie
    • notatie:
  • bivariate cumulatieve verdelingsfunctie
    • notatie:
  • marginale kansmassafuncties
  • (rij-)conditionele kansmassafunctie
      • notatie:
  • (kolom-)conditionele kansmassafunctie
  • twee statistisch onafhankelijke variabelen
    • voorwaarden: en
    • cf. statistisch onafhankelijke gebeurtenissen
Continue toevalsvariabelen
  • bivariate dichtheidsfunctie
    • notatie: niet
  • bivariate cumulatieve verdelingsfunctie
    • notatie:
  • marginale dichtheidsfuncties
  • (rij-)conditionele dichtheidsfunctie
      • notatie:
  • (kolom-)conditionele dichtheidsfunctie
  • twee statistisch onafhankelijke variabelen
    • voorwaarden: en
    • cf. statistisch onafhankelijke gebeurtenissen
Centrale tendensmaten
  • conditionele populatiegemiddelde
Spreidingsmaten
  • conditionele populatievariantie
Associatiematen
  • kwantitatieve variabelen
    • populatiecovariantie
    • populatiecorrelatie
      • statistisch onafhankelijk
        • niet andersom
Somvariabelen
  • centrale tendensmaten
  • spreidingmaten
  • associatiematen

Relatie steekproef - populatie

  • statistiek : regel die een steekproef van grootte samenvat in 1 getal
    • bv.
  • steekproevenverdeling van statistiek over verschillende steekproeven: of
  • independent and identically distributed (i.i.d.)
    • onafhankelijk
    • identiek verdeeld
    • gecombineerd
  • schatter : statistiek die populatieparameter schat
    • bv. schatter voor i.i.d.
  • kwaliteit van schatter
    • precision-accuracy
    • onzuiverheid of bias (maat voor accuraatheid, lager is beter)
    • zuivere schatter
      • perfecte accuraatheid
    • asymptotisch zuivere schatter
      • perfecte accuraatheid in de limiet
      • als zuiver, dan ook asymptotisch zuiver
    • gekwadrateerde standaardfout (maat voor precisie, lager is beter)
      • Engels: mean squared error (MSE)
      • cf.
    • zuiver
    • consistente familie schatters
      • perfecte precisie in de limiet
  • toepassingen
    • (zuiver)
    • (asymptotisch zuiver)
    • (zuiver)
    • (zuiver)
    • (asymptotisch zuiver)