Bivariate statistiek met TI-30X

Univariaat

Nogal wat studenten hebben moeite met het berekenen van statistieken uit bivariate gegevens met hun rekentoestel. Univariate gegevens lukken meestel wel goed, omdat je daar ook de frequentie kan meegeven. Stel dat je volgende gegevens hebt:

Dan kan je gemakkelijk de waarden van opslaan in L1, de waarden van in L2, en vervolgens via 1-Var Stats allerlei statistische maten berekenen. Als alternatief kan je ook in L2 stoppen. Dan doet het rekentoestal alsof en rekent het verder alles correct uit. Het enige probleem is Sx. Die waarde komt overeen met onze waar een factor in staat. Plots wordt daar door gedeeld, en dat kan uiteraard niet. Meestal is dat niet erg omdat je in zo'n situaties enkel nood aan hebt (σx op het rekentoestel). Bij inductieve statistiek kan je in plaats van proporties dan weer kansen ingeven. In dit geval is er zelfs geen sprake van een en kunnen we dus opnieuw Sx niet berekenen. Dat is wederom geen probleem want we zitten al op populatieniveau dus enkel de waarde van is relevant.

Bivariaat

Voor bivariate gegevens ligt het wat moeilijker. Daar kan je wel ingeven in L1 en in L2, maar er is geen ruimte meer voor frequenties of proporties. Het rekentoestel gaat er bij 2-Var Stat impliciet van uit dat elke rij een frequentie van heeft. Stel dat je met volgende gegevens moet werken:

Dan moet je deze tabel eerst omzetten naar volgende vorm door rijen te dupliceren:

Hier kan je rekentoestel wel perfect mee om, ook al staan er dubbels in.

Deze aanpak is realistisch zolang de frequenties redelijk klein zijn. Maar wat als we onderstaande data moeten ingeven?

In theorie kan je dezelfde aanpak hanteren, maar dan ga je heel lang bezig zijn. Er is gelukkig een betere manier. De meeste statistische maten hangen namelijk enkel af van de onderlinge relatieve verhoudingen in frequentie van de observaties, en niet van de absolute aantallen. Met andere woorden: proporties zijn belangrijk, maar frequenties op basis van het totale aantal minder.

Voorbeeld:

Je mag dus doen alsof elke frequentie duizend keer kleiner is. De uitkomst verandert niet zolang de onderlinge verhoudingen gerespecteerd blijven. Dit geldt ook voor andere factoren dan duizend. De kunst is dus om een factor te kiezen die gemakkelijk rekent en de frequenties zo klein mogelijk maakt. Het moeten uiteraard wel gehele getallen blijven. Eens de frequenties klein genoeg zijn, kan je opnieuw via duplicaten met je rekentoestel aan de slag.

We gaven hier het voorbeeld van het (univariate) gemiddelde, maar als je wat experimenteert zal je merken dat deze bevinding op veel uni- en bivariate statistische maten van toepassing is. Probeer deze techniek zelf eens voor o.a. (co)varianties en correlaties.

Je kan hetzelfde principe toepassen als proporties in plaats van frequenties gegeven zijn:

Uiteraard mag je deze manier van werken ook gebruiken als de gegevens in een kruistabel gegeven zijn:

Je zou de assumptie kunnen maken dat en dan met frequenties werken. Als er drie cijfers achter de komma zouden staan, kan je in de plaats nemen en bij vier cijfers achter de komma . Zo heb je gegarandeerd een geheel getal als frequentie. Zelfs voor zijn dit helaas aanzienlijk grote aantallen om te dupliceren. Gelukkig kan je meestal een vinden die beter geschikt is.

We stellen vast dat in dit voorbeeld de kleinste sprong tussen proporties gelijk is aan . Als we dan proberen, zal er een sprong van grootte tussen de overeenkomstige frequenties liggen. Er is geen garantie dat deze steekproefgrootte voor alle proporties een geheel getal qua frequentie gaat opleveren, maar het is een poging waard:

In dit geval komt het dus goed uit. Naast de "kleinste sprong" methode, kan je ook de grootste gemene deler van zoeken en daar door delen. Die ggd is hier , dus komen we na deling opnieuw uit op . Het hoeft trouwens niet per se de grootst mogelijke deler te zijn. Zolang de deler groot genoeg is waardoor de frequenties hanteerbaar worden qua duplicatie is het goed.

Zoals je kan zien vergt het soms wat trial en error om een goede te kiezen, maar de lagere frequenties die je uiteindelijk bekomt zijn het wel waard qua tijdsbesparing.

Op het examen is het belangrijk dit je dit soort berekeningen enkel op je kladpapier maakt. Als er geen gegeven is, mag je van de prof niet zomaar de assumptie maken dat een bepaalde waarde heeft die jou goed uitkomt. Dit is enkel een manier om met je rekentoestel toch snel bepaalde statistische maten te berekenen waarop geen invloed heeft.