Bivariate statistiek met TI-30X

Univariaat

Nogal wat studenten hebben moeite met het berekenen van statistieken uit bivariate gegevens met hun rekentoestel. Univariate gegevens lukken meestel wel goed, omdat je daar ook de frequentie kan meegeven. Stel dat je volgende gegevens hebt:

Dan kan je gemakkelijk de waarden van opslaan in L1, de waarden van in L2, en vervolgens via 1-Var Stats allerlei statistische maten berekenen. Als alternatief kan je ook in L2 stoppen. Dan doet het rekentoestal alsof en rekent het verder alles correct uit. Het enige probleem is Sx. Die waarde komt overeen met onze waar een factor in staat. Plots wordt daar door gedeeld, en dat kan uiteraard niet. Meestal is dat niet erg omdat je in zo'n situaties enkel nood aan hebt (σx op het rekentoestel). Bij inductieve statistiek kan je in plaats van proporties dan weer kansen ingeven. In dit geval is er zelfs geen sprake van een en kunnen we dus opnieuw Sx niet berekenen. Dat is wederom geen probleem want we zitten al op populatieniveau dus enkel de waarde van is relevant.

Bivariaat

Voor bivariate gegevens ligt het wat moeilijker. Daar kan je wel ingeven in L1 en in L2, maar er is geen ruimte meer voor frequenties of proporties. Het rekentoestel gaat er bij 2-Var Stat impliciet van uit dat elke rij een frequentie van heeft. Stel dat je met volgende gegevens moet werken:

Dan moet je deze tabel eerst omzetten naar volgende vorm door rijen te dupliceren:

Hier kan je rekentoestel wel perfect mee om, ook al staan er dubbels in.

Deze aanpak is realistisch zolang de frequenties redelijk klein zijn. Maar wat als we onderstaande data moeten ingeven?

In theorie kan je dezelfde aanpak hanteren, maar dan ga je heel lang bezig zijn. Er is gelukkig een betere manier. De meeste statistische maten hangen namelijk enkel af van de onderlinge relatieve verhoudingen in frequentie van de observaties, en niet van de absolute aantallen. Met andere woorden: proporties zijn belangrijk, maar frequenties op basis van het totale aantal minder.

Voorbeeld:

Je mag dus doen alsof elke frequentie duizend keer kleiner is. De uitkomst verandert niet zolang de onderlinge verhoudingen gerespecteerd blijven. Dit geldt ook voor andere factoren dan duizend. De kunst is dus om een factor te kiezen die gemakkelijk rekent en de frequenties zo klein mogelijk maakt. Het moeten uiteraard wel gehele getallen blijven. Eens de frequenties klein genoeg zijn, kan je opnieuw via duplicaten met je rekentoestel aan de slag.

We gaven hier het voorbeeld van het (univariate) gemiddelde, maar als je wat experimenteert zal je merken dat deze bevinding op veel uni- en bivariate statistische maten van toepassing is. Probeer deze techniek zelf eens voor o.a. (co)varianties en correlaties.

Je kan hetzelfde principe toepassen als proporties in plaats van frequenties gegeven zijn:

Uiteraard mag je deze manier van werken ook gebruiken als de gegevens in een kruistabel gegeven zijn:

Je zou de assumptie kunnen maken dat en dan met frequenties werken. Als er drie cijfers achter de komma zouden staan, kan je in de plaats nemen en bij vier cijfers achter de komma . Zo heb je gegarandeerd een geheel getal als frequentie. Zelfs voor zijn dit helaas aanzienlijk grote aantallen om te dupliceren. Gelukkig kan je meestal een vinden die beter geschikt is.

We stellen vast dat in dit voorbeeld de kleinste sprong tussen proporties gelijk is aan . Als we dan proberen, zal er een sprong van grootte tussen de overeenkomstige frequenties liggen. Er is geen garantie dat deze steekproefgrootte voor alle proporties een geheel getal qua frequentie gaat opleveren, maar het is een poging waard:

In dit geval komt het dus goed uit. Naast de "kleinste sprong" methode, kan je ook de grootste gemene deler van zoeken en daar door delen. Die ggd is hier , dus komen we na deling opnieuw uit op . Het hoeft trouwens niet per se de grootst mogelijke deler te zijn. Zolang de deler groot genoeg is waardoor de frequenties hanteerbaar worden qua duplicatie is het goed.

Zoals je kan zien vergt het soms wat trial en error om een goede te kiezen, maar de lagere frequenties die je uiteindelijk bekomt zijn het wel waard qua tijdsbesparing.

Op het examen is het belangrijk dit je dit soort berekeningen enkel op je kladpapier maakt. Als er geen gegeven is, mag je van de prof niet zomaar de assumptie maken dat een bepaalde waarde heeft die jou goed uitkomt. Dit is enkel een manier om met je rekentoestel toch snel bepaalde statistische maten te berekenen waarop geen invloed heeft.

Binomiale verdeling

Helemaal vooraan de cursus van statistiek 2 worden twee belangrijke statistische modellen geïntroduceerd: het Bernoulli model en het binomiaal model. Hoewel dit strikt gezien dus leerstof voor statistiek 2 is, komt kennis hiervan goed van pas tijdens statistiek 1. De kans is trouwens groot dat je dit in het middelbaar al kort gezien hebt. Hieronder volgt een korte crashcourse.

Bernoulli model

Bij elk statistisch model hoort een (geparametriseerde) verdelingsfunctie. Zo is het Bernoulli model - waarbij we als uitkomst enkel succes () of mislukking () kunnen hebben - volledig gespecifieerd met één enkele parameter: de kans op succes . Als een Bernoulli verdeling volgt, levert dat volgende kansmassafunctie:

Het klassieke voorbeeld dat hierbij hoort is het opwerpen van een munt waarbij we uitkomst "kop" als succes beschouwen. betekent dan dat de munt eerlijk is. Ander voorbeeld: een twee gooien met een eerlijke dobbelsteen kunnen we beschrijven met een model.

Binomiaalmodel

Het binomiaal model bouwt hier op verder door dit toevalsexperiment keer te herhalen en te voorspellen hoeveel successen we kunnen verwachten. De herhalingen moeten hierbij identiek verdeeld en statistisch onafhankelijk van elkaar zijn. In symbolen: . Zo bekomen we een model met twee parameters: en .

Als we willen weten wat de kans is op successen bij pogingen, kunnen we dat wegens onafhankelijkheid als volgt berekenen: . In dit scenario moeten we wel rekening houden met het aantal combinaties. We hebben hier onze mislukking achteraan geplaatst (XXO), maar XOX en OXX zijn ook geldige uitkomsten waarbij . De complete formule wordt dan . Meer algemeen met en onbekend krijgen we:

Een binomiaal model is dus een uitbreiding van een Bernoulli model. Anders gezegd is een Bernoulli model een speciaal geval van een binomiaal model: .

Het handige aan werken met modellen is dat ze vaak eenvoudige formules hebben om statistische maten te bepalen. In plaats van bijvoorbeeld het gemiddelde op een generieke manier te bepalen als kunnen we bij een binomiaalverdeling direct weten dat . Gelijkaardig hebben we dat .

De naam van dit model komt voort uit het Binomium van Newton:

Voorbeeld: .

Als en krijgen we:

Zo hebben we ook ineens bewezen dat voor de binomiale verdeling geldt dat , zoals het hoort.

Conclusie

Eens je dit gezien hebt, kijk je met een nieuwe bril naar de inhoud van statistiek 1. Een aantal oefeningen in de cursus (vanaf het inductieve luik) en sommige vragen uit de practica zijn een rechtstreekse toepassing van deze concepten. Onthoud dat je op het examen niet zomaar formules als mag toepassen omdat je ze officieel nog niet gezien hebt, maar het biedt wel een goede houvast en een manier om berekeningen te dubbelchecken.

Zie ook

Formules voor variantie & co

We hebben het eerder al gehad over het gemiddelde dat je op drie manieren kan berekenen. Maar de variantie spant wel de kroon wat betreft het aantal formules, zeker als we conditionele variantie mee in scope nemen.

Om te beginnen hebben we twee soorten varianties die als volgt gedefinieerd zijn:

Merk op dat . Je kan de tweede lijn dus ook schrijven als .

Naast beide varianties heb je ook nog de standaarddeviaties. Gelukkig moet je die formules niet apart van buiten leren, want het zijn gewoon de vierkantswortels van bovenstaande formules.

In plaats van de variantie te berekenen volgens de definitie, kan het ook (efficiënter) met de chiastische eigenschap:

Alsof dat nog niet genoeg was, gooit de prof nog vier extra formules in de mix.

Kan het eenvoudiger?

Dit begint verwarrend te worden. Tijd dus om wat orde in de chaos te scheppen. We zullen de zes formules voor in een tabel gieten. De rijen staan voor de drie manieren waarop je het gemiddelde kan berekenen en de kolommen voor de manier waarop je de variantie zelf kan berekenen.

gemiddelde definitie chiastische eigenschap

Eigenlijk heeft het dus totaal geen zin om de negen formules in de tabel apart van buiten te leren. Als we symbolisch kunnen uitdrukken dat we een gemiddelde van een uitdrukking (zoals of ) nodig hebben, zonder dat we ons moeten vastpinnen op één specifieke rekenmethode, kunnen we de tabel drastisch vereenvoudigen. Hiervoor gebruiken we de notatie met de streep boven de uitdrukking zoals we dat ook al deden voor .

gemiddelde definitie chiastische eigenschap

Op deze manier zit de essentie van alle zes formules vervat in slechts twee formules. Samen met de drie formules voor het gemiddelde (dus vijf in totaal) kan je de hele tabel hierboven met negen formules reconstrueren. Een mooie besparing!

Samengevat moet je voor dit luik van de leerstof enkel dit onthouden:

Conditionele varianties

Wat verderop in de cursus worden conditionele varianties geintroduceerd. Zelfs zonder de aanwezigheid van standaarddeviaties en varianten krijg je hier acht complexe formules naar het hoofd geslingerd. De eerste boosdoener is het feit dat conditionele variabelen in twee richtingen kunnen voorkomen: of . Dit is puur een kwestie van en van plaats te wisselen (en ook ). Van de acht formules kan je er dus al vier schrappen als niet-essentieel.

De vier overgebleven formules vertonen een bekend patroon! Er zijn twee manieren om het conditionele gemiddelde te berekenen ( of ), en we zitten opnieuw met het onderscheid tussen definitie en chiastische eigenschap. We kunnen dus dezelfde vereenvoudiging doorvoeren als we gedaan hebben in het univariate luik.

gemiddelde definitie chiastische eigenschap

Covarianties

Nu is de beurt aan jullie. Hoe zouden jullie de formules rond covarianties vereenvoudigen?

Post-mortem

Post-mortem (meaning after death) is short for 'post-mortem examination', or autopsy, an examination of a corpse in order to determine cause of death.

Als je deze post aan het lezen bent, is het wellicht nog niet te laat voor jou. Helaas is de realiteit dat elk jaar opnieuw honderden studenten uitstromen uit de bachelor psychologie zonder diploma. Bij velen was het universitair niveau (of toch dat van de KU Leuven) wat te hoog gegrepen waardoor ze voor meerdere vakken in de problemen kwamen. Het wordt schrijnender als studenten op andere vakken wel goede punten halen maar toch statistiek blijven meeslepen tot al hun examenkansen opgebruikt zijn. Sinds het mijlpaalsysteem is ingevoerd is het aantal examenkansen zelfs verder gedaald van zes naar vier. Ik heb dit proces helaas al vaker van dichtbij meegemaakt omdat studenten bij mij komen aankloppen voor hulp. Voor mij zijn de rode knipperlichten niet zo moeilijk te zien, maar studenten lijken er vaak blind voor te zijn tot het te laat is. Het verhaal van Lies (fictief personage) hieronder illustreert wat ik hiermee bedoel.

Disclaimer: elke gelijkenis met bestaande personen of gebeurtenissen berust op louter toeval.

Lies komt uit het ASO (humane wetenschappen). Ze was slim genoeg zodat ze vroeger op school nooit echt hard heeft moeten werken om middelmatige punten te halen. De afgelopen twee academiejaren studeerde ze psychologie aan de KU Leuven. Haar eerste academiejaar in Leuven verliep nogal hobbelig. Ze wist in het begin nog niet goed hoe ze met de grote hoeveelheden leerstof moest omgaan. De vrijheid die ze plots kreeg door op kot te gaan, hielp op dat vlak ook niet echt. De meeste vakken leken doorheen het semester nog wel mee te vallen. Enkel bij statistiek was ze de draad ergens halverwege het semester helemaal kwijtgeraakt. Eigenlijk was het al vrij vroeg in het semester beginnen mis te lopen met een slechte score op de voorkennistoets. Ze begon verder en verder achter te lopen, en de practica en vragencolleges brachten haar eigenlijk enkel nog meer in de war. De 1/20 die ze haalde op haar proefexamen statistiek was al bij al geen grote verrassing.

Tijdens de blok besefte ze al snel dat haar voorbereiding voor alle vakken doorheen het semester onvoldoende was. Haar planning die ze in het begin van de blokperiode had opgesteld bleek al na enkele dagen totaal onhaalbaar. De week tijd die ze had gereserveerd vlak voor het examen statistiek werd uiteindelijk deels ingepalmd door andere vakken die uitliepen. Lies had al gehoord dat het examen statistiek heel moeilijk was. Met haar beperkte voorkennis uit het secundair en haar slechte voorbereiding ging dat toch niet meer lukken op dit punt. Ze besloot uiteindelijk om het examen statistiek uit te stellen tot augustus, en nu vooral voorrang gegeven aan andere vakken die nog wel haalbaar leken.

De examenperiode in januari was een zware periode voor haar. Naar het einde toe was ze echt uitgeput. Ze heeft er nog het beste van proberen te maken, maar ze was uiteindelijk maar voor één van de vijf examens geslaagd (sociale psychologie). Lichtpuntje: sommige resultaten waren maar nipte onvoldoendes.

In het tweede semester wist ze al iets beter hoe ze haar vakken moest aanpakken en leerde ze om beter aan time management te doen. Dat vertaalde zich ook in haar academische resultaten: van de zes examens had ze maar twee onvoldoendes (neuro 1 en biologie).

Lies had dus in totaal zes herexamens. Begin juli heeft ze eerst een tijdje moeten bekomen van opnieuw een zware examenperiode. Eind juli ging ze nog tien dagen op kamp met de jeugdbeweging, iets waar ze al maanden naar uitkeek. Ze had wel enkele cursussen meegenomen in de hoop tussendoor wat te kunnen studeren, maar dat is niet echt gelukt. Vlak daarna is ze vol goede moed opnieuw beginnen te blokken. Toch was dat niet vanzelfsprekend door het slaaptekort dat ze tijdens het kamp had opgebouwd. Het eerste examen viel daarbovenop al vroeg in de tweede helft van augustus. Erger nog: er waren maar weinig vrije dagen tussen de daaropvolgende examens. Lies besefte snel dat het heel moeilijk zou worden om al die vakken (waaronder vier heel zware: functieleer 1, statistiek 1, neuro 1, biologie) op die tijd met de nodige diepgang te verwerken. Vooral de vakken uit het eerste semester zaten heel ver weg. Na een babbel met een studieloopbaanbegeleider besloot Lies om maar vier van de zes herexamens mee te doen. "Beter zo en dan slagen op die vier vakken in plaats van alle zes te proberen en dan voor alles te buizen", dacht ze. Haar plan was om twee van de vier zware vakken op te nemen (één van elk semester), samen met de twee lichtere vakken (sociologie en methoden 1). Voor het eerste semester koos ze om functieleer 1 te proberen en statistiek dus uit te stellen. Lies maakte wel het voornemen om volgend academiejaar 100% voor statistiek te gaan en ook bijles te nemen. Voor het tweede semestervak koos ze voor neuro 1, ten koste van biologie.

Na een hectische zomer kwamen de resultaten binnen: geslaagd op alle deelgenomen examens behalve functieleer 1 (9/20). Aangezien Lies niet aan alle examens heeft deelgenomen, kon ze voor dat vak niet gedelibereerd worden. Ze moest dus statistiek 1, functieleer 1 en biologie meenemen naar het tweede jaar. Voor ze aan dat tweede jaar zou beginnen, was het wel hoog tijd om haar hoofd leeg te maken en een reisje te boeken.

Enkele weken later begon Lies met herwonnen moed aan haar tweede jaar. Naast de drie eerstejaarsvakken had ze ook al enkele vakken uit de twee fase opgenomen om haar programma te vullen. De cursus statistiek was weinig of niet veranderd tegenover het jaar ervoor maar na een negental maanden geen wiskunde of statistiek meer beoefend te hebben, is er toch teleurstellend weinig blijven hangen. Ze had niet het gevoel dat ze het veel beter begreep dan een jaar eerder. Ze had gelukkig ondertussen wel iemand gevonden die haar bijles wou geven en waar ze met haar vragen bij terecht kon.

Een aantal weken later kwam het proefexamen statistiek er aan. Lies twijfelde om hier aan mee te doen, omdat ze ondertussen wel wist hoe examens aan de KU Leuven er aan toe gaan. Bovendien moest ze het weekend voor dat proefexamen gaan helpen op het mosselfeest van de jeugdbeweging. Zonder goede voorbereiding zou de uitslag toch niet betrouwbaar zijn, redeneerde ze.

Eens de blok was aangebroken, voelde ze zich al iets meer op haar gemak dan 12 maanden eerder. De voorbereiding voor de meeste vakken verliep vlot, al bleef statistiek een grote uitdaging. Ze had deze keer een betere planning gemaakt, met veel tijd voor statistiek.

Eens de examens achter de rug waren, had ze wel een goed gevoel bij de meeste vakken. Zelfs voor statistiek had ze hoop om een delibereerbaar cijfer te halen. De schok was dus groot toen ze naast haar andere mooie cijfers een 4/20 voor statistiek zag verschijnen. Ze is vervolgens haar examen gaan inkijken. Daaruit bleek dat ze naast de vele rekenfoutjes vaak gezondigd had tegen de notatiewijze. Ook al had ze veel oefeningen conceptueel wel redelijk opgelost, het was niet goed genoeg voor de prof.

Oorspronkelijk had ze zich voorgenomen om in het tweede semester tussendoor nog wat voor statistiek te werken zodat ze de kennis en vaardigheden die ze had opgebouwd niet opnieuw zou verliezen zoals vorige keer. In de praktijk bleek het moeilijk om voldoende moed te vinden om dat voornemen waar te maken. Daarbovenop waren de tweedejaarsvakken in combinatie met biologie ook best zwaar. Na een geslaagde juni zittijd had ze het gevoel dat ze weer bijna van nul voor statistiek moest beginnen. Haar budget voor bijlessen was ondertussen uiteraard op, dus ze stond er alleen voor. Anderzijds had ze wel bewezen dat ze andere moeilijke vakken tot een goed einde kon brengen.

In de zomer heeft ze nog één keer geprobeerd om alles te geven. Ze had zes weken tijd voor één herexamen. Dat zou toch doenbaar moeten zijn? De laatste dagen voor het examen heeft ze oude examenvragen proberen op te lossen, en dat viel eigenlijk verrassend goed mee. Met een klein hartje maar toch hoopvol begon ze aan haar vierde examenpoging. Halverwege het examen schoot haar stressniveau plots de hoogte in: het besef dat dit haar allerlaatste kans was, drong plots helemaal door. Ze probeerde er niet te veel aan te denken en te focussen op de examenvragen, maar tevergeefs. Ze merkte dat ze zich niet meer kon concentreren op de vragen, en dat deed haar nog meer panikeren. Vanaf dat punt had ze een black-out en lukte geen enkele vraag nog. Ze besefte dat het voorbij was...

Als je dit verhaal leest, kan je de individuele beslissingen van Lies op elk moment en gegeven de context wel begrijpen. Toch maakte ze een paar cruciale fouten op rij die haar uiteindelijk de das omgedaan hebben. Merk trouwens op dat ik Lies in dit verhaal o.a. bespaard heb van ziekte, liefdesverdriet of een sterfgeval in de familie. Die zaken gebeuren in het echt wel af en toe en gooien een planning vaak helemaal in de war.

Merk om te beginnen op dat Lies van de vier examenkansen er maar twee echt heeft benut. Dit is een terugkerend fenomeen bij veel studenten. Studenten blijven redenen verzinnen waarom het een goed idee is om statistiek even aan de kant te schuiven en iets anders prioriteit te geven. In de praktijk is dat altijd een slecht idee. Als studenten effectief tegen de limiet van vier examenkansen botsen, gaat het in de overgrote meerderheid van de gevallen om statistiek. Moet je op een gegeven moment de keuze maken tussen statistiek of een ander vak? Geef dan prioriteit aan statistiek.

In die concrete geval heeft Lies twee keer niet meegedaan met het examen. Een veelvoorkomende variant daarop is meedoen zonder deftige voorbereiding. Op die manier weet je hoe een examen statistiek er aan toegaat, en wat voor vragen je kan verwachten. In die zin is het een kleine verbetering op helemaal niet meedoen, maar het blijft een verspilde examenkans. De kernboodschap is dus: benut examenkansen statistiek ten volle.

Over examenkansen gesproken: als je moet vertrouwen op de vierde en laatste kans zit je sowieso al diep in de gevarenzone. Daarbovenop is de eerste examenkans bij de overgrote meerderheid van studenten geen groot succes. Examenkansen twee en drie zijn dus de momenten waarop je het meest moet inzetten. Daarmee heb ik niet gezegd dat je de eerste examenkans niet serieus moet nemen. Doe dat zeker wel, want dat legt een noodzakelijke basis of je nu direct slaagt of niet.

Prioriteiten stellen is ook in het tweede semester erg belangrijk. Het is verleidelijk om statistiek volledig links te laten liggen en te focussen op de vakken waar je in juni examen van hebt. Het gevolg is echter dat je het gevoel zal hebben dat je opnieuw van nul begint in augustus. Blijf dus tussendoor investeren in statistiek 1. Wie van plan is bijles te nemen doet er ook beter aan dat gespreid doorheen het tweede semester te doen i.p.v. als crashcourse op één week in de zomer.

Een goede tussenoplossing voor bissers is om statistiek 2 op te nemen in het tweede semester van het tweede jaar. Zo blijf je bezig met de materie in de ruime zin. Pas in dat geval wel op: de herexamens van statistiek 1 en 2 vallen vlak na elkaar (typisch vrijdag en maandag). Als je in die situatie zit, geef dan 100% voorrang aan statistiek 1 en laat 2 volledig links liggen.

Wat herexamens betreft: ze zijn er sneller dan je zou denken. Neem gerust een week of twee vakantie vlak na de juni zittijd, maar daarna is het tijd om er opnieuw in te vliegen. Als je in augustus nog moet beginnen, ben je hoogstwaarschijnlijk te laat. In september heb je wel nog een paar weken vakantie, maar in juli en augustus moet je niet te veel plannen maken rond vakantiewerk, jeugdbeweging, reizen of wat dan ook. In het geval van Lies was het eind januari al duidelijk dat haar zomer zo goed als volgeboekt zou zijn met herexamens. Dat zijn absoluut geen leuke opofferingen om te maken. Anderzijds had Lies haar leven er mogelijk heel anders kunnen uitzien als ze die tien dagen zomerkamp anders ingevuld had. Iedereen mag zijn of haar eigen keuzes maken natuurlijk, maar hou wel the big picture in de gaten terwijl je de knoop doorhakt.

Niet alleen tijdens blok- en examenperiodes moet je belangrijke beslissingen maken. Ook de kleine dingen zoals al dan niet meedoen met een voorkennistoets en proefexamen kunnen een groot effect hebben. Als Lies had meegedaan met het proefexamen, had ze wellicht feedback gekregen over haar notatiewijze die haar een paar punten extra had kunnen opleveren op het echte examen. Feedback is hier het kernwoord. De prof heeft een heel specifieke manier van verbeteren, en zo veel te meer feedback je krijgt op je eigen probeersels, zoveel te beter je zal kunnen inschatten hoe de prof het graag heeft.

Algemeen gesproken zijn er achteraf gezien in elk verhaal van studenten die het niet halen wel een paar rode knipperlichten te vinden. De kunst bestaat er in om ze tijdig bij jezelf te zien, en bij te sturen waar nodig. Hopelijk heeft het verhaal van Lies op dat vlak jullie wat kunnen helpen.

Ongelijkheid van Tchebychev

In de cursus vinden we twee vormen van de ongelijkheid van Tchebychev:

In het tweede luik van de cursus vinden we ook nog de twee inductieve tegenhangers hiervan.

Wanneer gebruiken?

De enige reden waarom je de ongelijkheid van Tchebychev zou gebruiken, is als je de verdeling van de toevalsvariabele niet kent: geen , geen , geen , ... Als je de verdeling wel kent, heeft deze ongelijkheid geen enkel nut meer. Dan kan je veel nauwkeuriger de kansen o.b.v. de verdelingsfunctie berekenen.

Als je er over nadenkt, is het wel straf dat we toch nog bepaalde uitspraken kunnen doen over zonder dat we veel over de verdeling weten. Uiteraard moeten we wel het gemiddelde en de variantie kennen. Dat is meteen ook een goede tip voor op het examen: als kansen gevraagd worden over een variabele waar je verdacht weinig over weet behalve die twee maten, is de kans groot dat je met Tchebychev aan de slag moet. Andersom kan het zijn dat je één maat krijgt en de constante , en dan je de andere maat moet proberen achterhalen. Ook die oefeningen zijn herkenbaar door de aanwezigheid van die constante.

Vereenvoudigen

Naar analogie met de eerdere blogpost rond dissectie van formules gaan we deze formules proberen te ontleden.

Aangezien beide varianten nogal een mond vol zijn, zouden we graag een manier vinden om ze korter voor te stellen. Met een concept dat we enkele bladzijden verderop in de cursus geleerd hebben, is dat gelukkig niet al te moeilijk. We kunnen binnen de proportie namelijk beide leden delen door (resp. ) tot we plots iets herkenbaar zien.

Voor we verder gaan moeten we ons wel de vraag stellen: mogen we die deling altijd zomaar uitvoeren? Helaas niet, we komen in de problemen als of als .

Als delen we door , wat uiteraard niet toegestaan is. Gelukkig komt die situatie niet zo vaak voor. Een spreiding van betekent intuitief dat er geen spreiding is of dat dus alle gegevens op elkaar liggen.

De som van positieve getallen kan alleen nul zijn als elke individuele term ook nul is

Dit kan dus enkel als alle observaties gelijk zijn aan hun gemiddelde en dus ook gelijk zijn aan alle andere observaties. In dat geval blijft er weinig mysterie over rond onze toevalsvariabele en hebben we Tchebychev niet nodig om uitspraken over proporties te doen.

Naast geeft ook problemen. Gelukkig is dat per definitie onmogelijk. (Als dit wel mogelijk was, zou onze ongelijkheid omdraaien omdat we delen door een negatief getal.)

Nu kunnen we onze formules verder herschrijven:

Aangezien kunnen we de absolute waarde uitbreiden naar heel de breuk. In de tweede formule kunnen we op een gelijkaardige manier de macht rond de hele breuk zetten.

Het heeft wat moeite gekost, maar door deze stappen te zetten kunnen we nu wel drastisch vereenvoudigen:

Interpretatie

Als je een intuitief begrip hebt van Z-scores, kan je de formules op deze manier wellicht al wat beter vatten. Tchebychev zegt eigenlijk gewoon dat hogere Z-scores (dus waarden verder weg van het gemiddelde) een steeds kleinere kans hebben.

Nog een andere formuleringswijze

Vertrek van de oorsponkelijke stelling:

Stel nu . Dan krijgen we:

Voor de tweede stelling krijgen we op gelijkaardige manier met :

Wat met de constante?

Een andere vraag die je jezelf zou kunnen stellen, is waarom per se groter dan één moet zijn. Wat gebeurt er als ? Dan is . Aangezien een proportie altijd in ligt, leren we hier niets nieuw meer uit. De formule is dus niet fout voor deze waarden van , maar ook niet nuttig.

Een ander geval om naderbij te bekijken is . In dat geval komen we wel in de problemen omdat we in het rechterlid delen door nul. Anderzijds hebben we Tchebychev niet nodig om te weten wat de proportie is, want die is altijd gelijk aan .

Tot slot, wat met (resp. )? Hier kunnen we dezelfde redenering toepassen: is gegarandeerd groter dan een negatieve dus de proportie zal opnieuw altijd zijn.

Voor kunnen we een analoge redenering opbouwen. Conclusie: strikt gezien had er als voorwaarde (resp. ) mogen staan, maar we zouden daar niets bij winnen. Pas bij waarden strikt groter dan begint de stelling te renderen.

Relatie tussen de twee stellingen

In de cursus worden de twee stellingen als equivalent neergezet. Een bewijs daarvan krijgen we helaas niet. Je moet de prof dus op zijn woord geloven. Een kritische student zou toch kunnen proberen om zelf uit de eerste versie de tweede te bewijzen of omgekeerd.

Je kan beginnen met in de tweede stelling gelijk te stellen aan . Dan krijg je:

Dit lijkt al een beetje op de eerste stelling, maar we zijn er nog niet helemaal. Voor positieve waarden van komt de uitspraak inderdaad mooi overeen met . M.a.w.: . Dan hebben we:

Als derde en laatste stap moeten we aantonen dat . Meer algemeen zou moeten gelden dat . Merk op dat we vervangen hebben door omdat deze stelling niet specifiek afhangt van Z-getransformeerde variabelen maar wellicht meer algemeen geldig is. Verder hebben we het over i.p.v. . Aangezien altijd strikt positief moet zijn, kunnen we in dat specifieke geval de absolute waarde achterwege laten.

In de praktijk blijkt het moeilijk te zijn om hier een formeel bewijs voor te geven, maar de face validity van de stelling is gelukkig al redelijk hoog. Ze rust op het feit dat en dat de vierkantswortel als strikt monotoon stijgende functie geen vreemde effecten op ongelijkheden heeft. Als je de stelling probeert toe te passen op verschillende voorbeelden merk je ook dat het altijd lijkt te kloppen. Geen van beide opmerkingen is een garantie dat de stelling effectief klopt, maar het is voorlopig goed genoeg voor ons. Beide stellingen lijken dus inderdaad helemaal equivalent aan elkaar te zijn.

Cassie Kozyrkov - Statistical Thinking

Leuk gebrachte YouTube reeks van Cassie Kozyrkov (Chief Decision Scientist bij Google) over statistiek. Vooral interessant voor studenten die met Statistiek voor Psychologen: deel 2 bezig zijn.