Formularium - Statistiek deel 1
Beschrijvende statistiek
Univariaat
- observaties van :
- waardengebied van :
Frequentiefuncties
-
frequentie
-
proportie
- notatie:
- cumulatieve frequentie
-
cumulatieve proportie
- notatie:
-
- ongelijkheid in tweede term is strikt ( en niet )
-
-de kwantiel
- geval 1:
- geval 2:
- andere cursussen statistiek hebben vaak andere definities voor geval 2
- algemene formule voor de twee gevallen
- geval 1:
- percentielen
- decielen
- kwartielen
Centrale tendensmaten
-
modus / modi
- unimodaal, bimodaal, multimodaal
-
mediaan
- als oneven
-
als even
- veronderstelling: gesorteerd van klein naar groot
- gemiddelde
-
- is een optimum, maar niet uniek
-
- is het (unieke) optimum
- Steiner:
Spreidingsmaten
- bereik
- interkwartielbereik
-
variantie
-
standaarddeviatie
-
Tchebychev ()
- ongeacht verdeling van
-
boxplot
- variant 1
- zonder uitbijters
- box
- lengte snorharen
- onder:
- boven:
- variant 2
- met uitbijters (buiten snorharen)
- box
- zelfde als variant 1
- lengte snorharen
- onder:
- boven:
- variant 1
Transformaties
- algemeen
- lineaire transformaties
- Z-transformatie
-
z-score
- hoeveel standaarddeviaties boven of onder ligt
Bivariaat
- observaties van :
- observaties van :
- gepaarde gegevens:
- mogelijke waarden van :
- mogelijke waarden van :
- achtergrondinfo: long data vs wide data
- omzetting
- long -> wide: pivot
- wide -> long: melt
- omzetting
kleur | seizoen | personage |
---|---|---|
rood | 1 | Jason |
blauw | 1 | Billy |
geel | 1 | Trini |
roze | 1 | Kimberly |
zwart | 1 | Zack |
groen | 1 | Tommy |
rood | 2 | Rocky |
blauw | 2 | Billy |
geel | 2 | Aisha |
roze | 2 | Kimberly |
zwart | 2 | Adam |
wit | 2 | Tommy |
Tabel 1 voorbeeld long data
kleur | seizoen 1 | seizoen 2 |
---|---|---|
rood | Jason | Rocky |
blauw | Billy | Billy |
geel | Trini | Aisha |
roze | Kimberly | Kimberly |
zwart | Zack | Adam |
groen | Tommy | - |
wit | - | Tommy |
Tabel 2a voorbeeld wide data
seizoen | rood | blauw | geel | roze | zwart | groen | wit |
---|---|---|---|---|---|---|---|
1 | Jason | Billy | Trini | Kimberly | Zack | Tommy | - |
2 | Rocky | Billy | Aisha | Kimberly | Adam | - | Tommy |
Tabel 2b voorbeeld wide data, alternatief
Frequentiefuncties
-
- voorstelling: bivariate frequentietabel = contingentietabel
-
marginale frequentiefuncties
-
- voorstelling: bivariate proportietabel
-
marginale proportiefuncties
-
(rij-)conditionele proporties
- assumptie: X in rijen, Y in kolommen
-
(kolom-)conditionele proporties
- assumptie: X in rijen, Y in kolommen
- absolute vs conditionele kanstabellen herkennen
- absoluut als
1
ofn
als totaal - conditioneel als
1
ofn
overal in somrij of overal in somkolom
- absoluut als
Centrale tendensmaten
- conditioneel gemiddelde
Spreidingsmaten
- conditionele variantie
Associatiematen
- kwalitatieve variabelen met bijectie:
- proportie overeenstemming
- kwantitatieve variabelen
-
covariantie
-
(productmoment)correlatie
-
covariantie
Optimale voorspelling
- terminologie
- input, onafhankelijke variabele, voorspeller, predictor
- output, afhankelijke variabele, voorspelde, criterium
- zowel als kunnen beide rollen aannemen
- met als predictor
- met als predictor
-
gekwadrateerde standaardfout van estimatie of foutenvariantie
- Engels: mean squared error (MSE)
- verklaarde of voorspelde variantie
-
algemene optimale voorspelling
- minimaliseert
-
optimale lineaire voorspelling
- trade-off: hogere in ruil voor simpelere vergelijking
-
- regression to the mean:
- regressievergelijking
-
regressieconstante
- loopt door punt
- regressiegewicht
-
determinatiecoefficient
-
- verdeelsleutel tussen verklaarde en onverklaarde variantie
- zegt enkel iets over mogelijk lineair verband tussen en
- verband kan ook kwadratisch, logaritmisch, ... of onbestaand zijn
-
- correlation causation
- spurious correlation: geen inhoudelijke betekenis
- causaal verband
- direct: of
- indirect: of
- derde (direct of indirect): en
- logaritmisch verband
- startwaarde
- groeifactor
Somvariabelen
- centrale tendensmaten
- spreidingmaten
- associatiematen
Multivariaat
- conditioneel werken
- kies vaste waarden voor alle variabelen behalve de twee waar je mee werkt
- kwantitatief: optimale lineaire voorspelling
- meervoudige regressie:
- gekwadrateerde meervoudige correlatiecoefficient
- twee binaire kwalitatieve predictorvariabelen
- dummyvariabelen met voor kwalitatieve variabelen
- tabel met
- rij/kolom gemiddelden
- geen hoofdeffect (HE) van
- algemeen: geen hoofdeffect
- zonder interactie
- evenwijdige lijnstukken in grafiek
- bij meer dan 2 waarden: stelling geldig in elke deeltabel
- met interactie
-
ordinaal: lijnstukken snijden/raken op geen enkele grafiek
- orde blijft behouden
-
disordinaal: lijnstukken snijden/raken op min 1 grafiek
- orde wisselt om
- 8 mogelijke combinaties van HE , HE , interactie
Inductieve statistiek
- heel gelijkaardig aan deel beschrijvende statistiek
- belangrijkste verschillen
- hier geen notie van frequentie en afgeleide formules
- formules vaak verschillend voor discreet en continu
- geen optimale voorspelling
- enkel uni- en bivariaat, niet algemeen multivariaat
- belangrijkste verschillen
-
populatie
- (ongeordende) verzameling
-
steekproef
- geordende verzameling
- soms ongeordend als expliciet vermeld
- trekking uit populatie
- met/zonder teruglegging
- geordende verzameling
- steekproeftrekking op zuiver toevallige wijze (ZTW)
- met teruglegging
- elke steekproef van grootte heeft evenveel kans om getrokken te worden
- voldoende maar geen noodzakelijke voorwaarde voor statistische inferentie
- simulatie via
randint(1, n)
op rekenmachine-
toevalszaadje of random seed: interne startwaarde
- expliciet kiezen maakt de simulatie deterministisch
-
toevalszaadje of random seed: interne startwaarde
-
representatieve steekproef
- lijkt op populatie m.b.t. 1 of meerdere aspecten
- niet gegarandeerd door trekking op ZTW (en ook niet omgekeerd)
-
gestratificeerde steekproeftrekking
- verdeel populatie in homogene strata
- trek substeekproef per strata
- voeg substeekproeven samen
- garandeert representativiteit
- niet op ZTW
-
selecte steekproeven
- trek enkel uit specifieke deelpopulatie (bv. WEIRD)
Univariaat
Verdelingsfuncties
Discrete toevalsvariabele
- waardengebied van :
-
kansmassafunctie
- notatie:
-
cumulatieve verdelingsfunctie
- notatie:
-
-de populatiekwantiel
- berekening: cf. beschrijvende statistiek
Continue toevalsvariabele
-
dichtheidsfunctie
- notatie: niet
-
cumulatieve verdelingsfunctie
- notatie:
-
- -de populatiekwantiel (enkel indien continu)
Gemeenschappelijk
- percentielen
- decielen
- kwartielen
Centrale tendensmaten
- populatiemodus / populatiemodi
- populatiemediaan
-
populatiegemiddelde
- verwachte waarde of expected value
- Steiner:
Spreidingsmaten
-
bereik
- min en max bestaan hier niet altijd
- interkwartielbereik
- populatievariantie
- populatiestandaarddeviatie
-
Tchebychev ()
- ongeacht verdeling van
Transformaties
- algemeen
- lineaire transformaties
Bivariaat
Verdelingsfuncties
Discrete toevalsvariabelen
- mogelijke waarden van :
- mogelijke waarden van :
- gepaarde gegevens:
-
bivariate kansmassafunctie
- notatie:
-
bivariate cumulatieve verdelingsfunctie
- notatie:
-
marginale kansmassafuncties
-
(rij-)conditionele kansmassafunctie
-
- notatie:
-
- (kolom-)conditionele kansmassafunctie
- twee statistisch onafhankelijke variabelen
- voorwaarden: en
- cf. statistisch onafhankelijke gebeurtenissen
Continue toevalsvariabelen
-
bivariate dichtheidsfunctie
- notatie: niet
-
bivariate cumulatieve verdelingsfunctie
- notatie:
-
-
marginale dichtheidsfuncties
-
(rij-)conditionele dichtheidsfunctie
-
- notatie:
-
- (kolom-)conditionele dichtheidsfunctie
- twee statistisch onafhankelijke variabelen
- voorwaarden: en
- cf. statistisch onafhankelijke gebeurtenissen
Centrale tendensmaten
-
conditionele populatiegemiddelde
Spreidingsmaten
-
conditionele populatievariantie
Associatiematen
- kwantitatieve variabelen
-
populatiecovariantie
-
populatiecorrelatie
-
statistisch onafhankelijk
- niet andersom
-
populatiecovariantie
Somvariabelen
- centrale tendensmaten
- spreidingmaten
- associatiematen
Statistische modellering
aantal events | wachttijd tot eerste event | |
---|---|---|
discreet | Bin | Geo |
~continu | Poisson | Expon |
Discreet
- Bernoulli
- Binomiaal
- proportie successen
- Geometrisch
(Quasi-)Continu
- Poisson
- voorwaarden
- proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
- constante kans als alle stukken even groot
-
stukken:
- is geen macht maar een specifieke notatiewijze
- gebeurtenis onafhankelijk van gebeurtenissen in ander stuk medium
- proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
- voorwaarden
- Uniform
-
-
-
- symmetrisch
- Normaal
-
- klokvormig / Gausscurve
- symmetrisch
- standaardnormaalmodel:
-
- Bivariaat Normaal
-
onafhankelijk
-
- fout in formule?
-
onafhankelijk
- Exponentieel
Relatie steekproef - populatie
-
statistiek : regel die een steekproef van grootte samenvat in 1 getal
- bv.
- steekproevenverdeling van statistiek over verschillende steekproeven: of
-
independent and identically distributed (i.i.d.)
-
onafhankelijk
-
identiek verdeeld
- gecombineerd
-
onafhankelijk
-
schatter : statistiek die populatieparameter schat
- bv. schatter voor i.i.d.
- kwaliteit van schatter
- onzuiverheid of bias (maat voor accuraatheid, lager is beter)
-
zuivere schatter
- perfecte accuraatheid
-
asymptotisch zuivere schatter
- perfecte accuraatheid in de limiet
- als zuiver, dan ook asymptotisch zuiver
-
gekwadrateerde standaardfout (maat voor precisie, lager is beter)
- Engels: mean squared error (MSE)
- cf.
- zuiver
-
consistente familie schatters
- perfecte precisie in de limiet
- toepassingen
- (zuiver)
- (asymptotisch zuiver)
- (zuiver)
- (zuiver)
- (asymptotisch zuiver)
Samenvattende tabellen
Maat | Symbool | Formules |
|
||
---|---|---|---|---|---|
> CENTRALE TENDENSMATEN | |||||
steekproefgemiddelde |
|
||||
populatiegemiddelde |
|
|
|||
conditioneel steekproefgemiddelde |
|
- | - | - | |
conditioneel populatiegemiddelde |
|
|
- | - | - |
steekproefmediaan | - | - | - | ||
populatiemediaan | - | - | - | ||
steekproefmodus | - | - | - | - | - |
populatiemodus | - | - | - | - | - |
> SPREIDINGSMATEN | |||||
steekproefbereik | - | - | - | - | |
populatiebereik | - | - | - | - | |
steekproef interkwartielbereik |
- | - | - | ||
populatie interkwartielbereik |
- | - | - | ||
steekproefvariantie |
|
||||
steekproefvariantie | |||||
populatievariantie |
|
||||
conditionele steekproefvariantie |
|
- | - | - | |
conditionele populatievariantie |
|
- | - | - | |
steekproef standaarddeviatie |
|||||
steekproef standaarddeviatie |
|||||
populatie standaarddeviatie |
|||||
> ASSOCIATIEMATEN | |||||
steekproefcovariantie |
|
||||
steekproefcovariantie | |||||
populatiecovariantie |
|
||||
steekproefcorrelatie |
|
||||
populatiecorrelatie |
|