De cumulatieve verdelingsfunctie schetsen

Mean Sigma

2024-12-22

In [35]:

import numpy as np
import matplotlib.pyplot as plt

Het verband zien tussen een continue dichtheidsfunctie $\varphi_X(x)$ en de overeenkomstige cumulatieve verdelingsfunctie $\Phi_X(x)$ is niet alleen nuttig qua inzicht. Op het examen zal je soms ook een schets van de ene grafiek moeten maken, gegeven de andere. Dit kan dus in twee richtingen werken, maar in deze blogpost focussen we ons op het schetsen van $\Phi_X(x)$ als $\varphi_X(x)$ gegeven is.

Ter herinnering: de cumulatieve verdelingsfunctie geeft de kans weer dat een toevalsvariabele $X$ een waarde aanneemt die kleiner is dan of gelijk is aan een bepaalde waarde $x$. Met andere woorden: $\Phi_X(x) = P(X \leq x)$.

Voorbeeld 1: rechthoekige dichtheidsfunctie¶

Laten we beginnen met een rechthoekige dichtheidsfunctie die de volgende vorm heeft:

$$ \varphi_X(x) = \begin{cases} 0.25 & \mid 1 \leq x \leq 5 \\ 0 & \mid \text{elders} \end{cases} $$

Anders gezegd: $X \sim \mathcal U(1, 5)$.

Deze dichtheidsfunctie is constant over het interval $[1, 5]$ met een hoogte van $0.25$. Dit betekent dat de totale oppervlakte onder de rechthoek (niet onverwacht) gelijk is aan $0.25 \cdot (5 - 1) = 1$.

De cumulatieve verdelingsfunctie $\Phi_X(x)$ is zoals steeds de oppervlakte onder de dichtheidsfunctie $\varphi_X(x)$ vanaf $-\infty$ tot $x$. In symbolen: $\int_{-\infty}^{x} \varphi_X(t)dt$. (We gebruiken hier de integratievariabele $t$ aangezien $x$ al gebruikt wordt om de bovengrens aan te geven.) Zo komen we tot volgende vorm voor $\Phi_X(x)$:

Voor $x < 1$ is er geen kans, dus $\Phi_X(x) = 0$.
Voor $1 \leq x \leq 5$ is de cumulatieve verdelingsfunctie gelijk aan de oppervlakte onder de constante $0.25$ van 1 tot $x$. De oppervlakte is dus gelijk aan $0.25 \cdot (x - 1)$.
Voor $x > 5$ is de oppervlakte onder de curve gelijk aan 1, omdat de volledige oppervlakte onder de dichtheidsfunctie dan is bereikt.

De cumulatieve verdelingsfunctie $\Phi_X(x)$ is dus:

$$ \Phi_X(x) = \begin{cases} 0, & x < 1 \\ 0.25(x - 1), & 1 \leq x \leq 5 \\ 1, & x > 5 \end{cases} $$

In [ ]:

def pdf_rect(x):
    return 0.25 if 1 <= x <= 5 else 0

def cdf_rect(x):
    if x < 1:
        return 0
    elif 1 <= x <= 5:
        return 0.25 * (x - 1)
    else:
        return 1

x_vals = np.linspace(0, 6, 500)
pdf_vals = [pdf_rect(x) for x in x_vals]
cdf_vals = [cdf_rect(x) for x in x_vals]

plt.figure(figsize=(12, 10))

plt.subplot(2, 2, 1)
plt.title(r'Dichtheidsfunctie $\varphi_X(x)$')
plt.plot(x_vals, pdf_vals)
plt.fill_between(x_vals, pdf_vals, where=[1 <= x <= 5 for x in x_vals], alpha=0.1)
plt.xlabel('$x$')
plt.xlim(0, 6)
plt.ylim(0, 1.15)
plt.yticks(np.arange(0, 1.05, 0.25))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 2)
plt.title(r'Cumulatieve verdelingsfunctie $\Phi_X(x)$')
plt.plot(x_vals, cdf_vals)
plt.xlabel('$x$')
plt.xlim(0, 6)
plt.ylim(0, 1.15)
plt.yticks(np.arange(0, 1.05, 0.25))
plt.grid(linestyle='--', alpha=0.7)

bar_width = 0.5
bar_gap = 0.02
x_riemann = [1 + i * bar_width for i in range(8)]
pdf_riemann = [pdf_rect(x) for x in x_riemann]
cdf_riemann = np.cumsum([p * bar_width for p in pdf_riemann])
colors = [plt.cm.Blues(1 - i / len(x_riemann)) for i in range(len(x_riemann))]

plt.subplot(2, 2, 3)
plt.title(r'Gediscretiseerde dichtheidsfunctie $\pi_X(x)$')
# plt.plot(x_vals, pdf_vals)
# plt.fill_between(x_vals, pdf_vals, where=[1 <= x <= 5 for x in x_vals], alpha=0.1)
for i, x in enumerate(x_riemann):
    plt.bar(x, pdf_riemann[i], width=bar_width-bar_gap, align='edge', color=colors[i])
plt.xlabel('$x$')
plt.xlim(0, 6)
plt.ylim(0, 1.15)
plt.yticks(np.arange(0, 1.05, 0.25))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 4)
plt.title(r'Gediscretiseerde cumulatieve verdelingsfunctie $\Phi_X(x)$')
# plt.plot(x_vals, cdf_vals)
for i in range(len(x_riemann)):
    for j in range(i + 1):
        plt.bar(
            x_riemann[i],
            pdf_riemann[j] * bar_width,
            width=bar_width - bar_gap,
            align='edge',
            color=colors[j],
            bottom=np.sum([p * bar_width for p in pdf_riemann[:j]]) if j > 0 else 0,
        )
for x_repeat in [5, 5.5]:
    for i in range(len(x_riemann)):
        plt.bar(
            x_repeat,
            pdf_riemann[i] * bar_width,
            width=bar_width - bar_gap,
            align='edge',
            color=colors[i],
            bottom=np.sum([p * bar_width for p in pdf_riemann[:i]]) if i > 0 else 0,
        )
plt.xlabel('$x$')
plt.xlim(0, 6)
plt.ylim(0, 1.15)
plt.yticks(np.arange(0, 1.05, 0.25))
plt.grid(linestyle='--', alpha=0.7)

No description has been provided for this image

Conclusie: een horizontaal lijnstuk in $\varphi_X(x)$ wordt een stijgende rechte in $\Phi_X(x)$. De rekenregel die hierachter zit is $\int h dx = hx + C$. Hoe hoger de horizontale lijn $y = h$ ligt, hoe sneller de rechte $hx$ dus zal stijgen. Merk ook op dat de rechte nooit kan dalen. Daarvoor zouden we een $h < 0$ nodig hebben, maar $\varphi_X(x) \geq 0$ dus dat kan in deze context niet.

Wie liever niet opnieuw nadenkt over de rekenregels rond integralen kan op de twee onderste grafieken ook intuitief zien waarom een horizontaal lijnstuk plots een stijgende rechte wordt. Als we de dichtheidsfunctie benaderen met een discrete kansmassafunctie $\pi_X(x) = 0.25$ voor $x \in \{1, 1.5, \ldots, 4.5\}$ en we berekenen daar de cumulatieve variant van, zien we hetzelfde patroon ontstaan.

Nu we dit weten, moeten we in de toekomst voor rechthoeken gewoon de totale oppervlakte bij het begin en bij het einde berekenen. In ons geval is de oppervlakte $P(X \leq 1) = 0.0$ en $P(X \leq 5) = 1.0$. We kunnen dus om $\Phi_X(x)$ te schetsen de twee coordinaten $(1, 0.0)$ en $(5, 1.0)$ verbinden met een rechte en we zijn klaar.

Helaas gaat het niet altijd zo eenvoudig zijn. Driehoekige functies bijvoorbeeld zullen geen rechte meer opleveren.

Voorbeeld 2: stijgende driehoekige dichtheidsfunctie¶

In dit voorbeeld hebben we een dichtheidsfunctie die de vorm heeft van een driehoek. Stel dat de dichtheidsfunctie wordt gegeven door:

$$ \varphi_X(x) = \begin{cases} 2x & \mid 0 \leq x \leq 1 \\ 0 & \mid \text{elders} \end{cases} $$

De cumulatieve verdelingsfunctie $\Phi_X(x)$ is opnieuw de oppervlakte onder de curve van de dichtheidsfunctie vanaf $-\infty$ tot $x$. In dit geval stijgt de oppervlakte niet lineair maar kwadratisch aangezien $\int (ax+b) dx = a \frac{x^2}{2} + bx + C$. Specifiek ik ons geval is $a=2$ en $b=0$, dus krijgen we $x^2 + C$. De cumulatieve verdelingsfunctie wordt dus (voor $C=0$):

$$ \Phi_X(x) = \begin{cases} 0 & \mid x < 0 \\ x^2 & \mid 0 \leq x \leq 1 \\ 1 & \mid x > 1 \end{cases} $$

De grafieken van $\varphi_X(x)$ en $\Phi_X(x)$ vind je hieronder. Het gediscretiseerde voorbeeld eronder toont opnieuw visueel aan hoe we van een stijgende rechte naar een parabool gaan zonder rekenregels voor integralen.

In [ ]:

def pdf_triangle(x):
    return 2 * x if 0 <= x <= 1 else 0

def cdf_triangle(x):
    if x < 0:
        return 0
    elif 0 <= x <= 1:
        return x**2
    else:
        return 1

x_vals = np.linspace(-0.1, 1.1, 500)
pdf_vals = [pdf_triangle(x) for x in x_vals]
cdf_vals = [cdf_triangle(x) for x in x_vals]

plt.figure(figsize=(12, 10))

plt.subplot(2, 2, 1)
plt.title(r'Dichtheidsfunctie $\varphi_X(x)$')
plt.plot(x_vals, pdf_vals)
plt.fill_between(x_vals, pdf_vals, where=[0 <= x <= 1 for x in x_vals], alpha=0.1)
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 2)
plt.title(r'Cumulatieve verdelingsfunctie $\Phi_X(x)$')
plt.plot(x_vals, cdf_vals)
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

bar_width_triangle = 0.1
bar_gap = 0.005
x_riemann_triangle = [i * bar_width_triangle for i in range(10)]
pdf_riemann_triangle = [pdf_triangle(x+0.05) for x in x_riemann_triangle]
cdf_riemann_triangle = np.cumsum([p * bar_width_triangle for p in pdf_riemann_triangle])
colors_triangle = [plt.cm.Blues(1 - i / len(x_riemann_triangle)) for i in range(len(x_riemann_triangle))]

plt.subplot(2, 2, 3)
plt.title(r'Gediscretiseerde dichtheidsfunctie $\pi_X(x)$')
# plt.plot(x_vals, pdf_vals)
# plt.fill_between(x_vals, pdf_vals, where=[0 <= x <= 1 for x in x_vals], alpha=0.1)
for i, x in enumerate(x_riemann_triangle):
    plt.bar(x, pdf_riemann_triangle[i], width=bar_width_triangle-bar_gap, align='edge', color=colors_triangle[i])
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 4)
plt.title(r'Gediscretiseerde cumulatieve verdelingsfunctie $\Phi_X(x)$')
# plt.plot(x_vals, cdf_vals)
for i in range(len(x_riemann_triangle)):
    for j in range(i + 1):
        plt.bar(
            x_riemann_triangle[i],
            pdf_riemann_triangle[j] * bar_width_triangle,
            width=bar_width_triangle - bar_gap,
            align='edge',
            color=colors_triangle[j],
            bottom=np.sum([p * bar_width_triangle for p in pdf_riemann_triangle[:j]]) if j > 0 else 0,
        )
for x_repeat in [1]:
    for i in range(len(x_riemann_triangle)):
        plt.bar(
            x_repeat,
            pdf_riemann_triangle[i] * bar_width_triangle,
            width=bar_width_triangle - bar_gap,
            align='edge',
            color=colors_triangle[i],
            bottom=np.sum([p * bar_width_triangle for p in pdf_riemann_triangle[:i]]) if i > 0 else 0,
        )
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

Net zoals voorheen kunnen we dus starten met het aanduiden van de twee coordinaten: in dit geval $(0, 0.0)$ en $(1, 1.0)$. Maar in plaats van de twee punten te verbinden met een rechte, moeten we ze nu verbinden met een dalparabool ($ax^2+bx+c$ met $a>0$).

Als de driehoek omgekeerd had gestaan (dus gevormd door een dalende rechte), dan moesten we de twee punten verbinden door een bergparabool ($ax^2+bx+c$ met $a<0$).

Voorbeeld 3: dalende driehoekige dichtheidsfunctie¶

In dit voorbeeld hebben we een dichtheidsfunctie die de vorm heeft van een driehoek die afneemt van $2$ bij $x = 0$ naar $0$ bij $x = 1$. De dichtheidsfunctie wordt als volgt gegeven:

$$ \varphi_X(x) = \begin{cases} 2(1 - x) & \mid 0 \leq x \leq 1 \\ 0 & \mid \text{elders} \end{cases} $$

Dit geeft ons de cumulatieve verdelingsfunctie:

$$ \Phi_X(x) = \begin{cases} 0 & \mid x < 0 \\ 2x - x^2 & \mid 0 \leq x \leq 1 \\ 1 & \mid x > 1 \end{cases} $$

Deze cumulatieve verdelingsfunctie heeft inderdaad de vorm van een bergparabool aangezien $a = -1 < 0$. Verder is de werkwijze helemaal identiek aan die van voorbeeld 2.

In [15]:

def pdf_reverse_triangle(x):
    return 2 * (1 - x) if 0 <= x <= 1 else 0

def cdf_reverse_triangle(x):
    if x < 0:
        return 0
    elif 0 <= x <= 1:
        return 2 * x - x**2
    else:
        return 1

x_vals = np.linspace(-0.1, 1.1, 500)
pdf_vals = [pdf_reverse_triangle(x) for x in x_vals]
cdf_vals = [cdf_reverse_triangle(x) for x in x_vals]

plt.figure(figsize=(12, 10))

plt.subplot(2, 2, 1)
plt.title(r'Dichtheidsfunctie $\varphi_X(x)$')
plt.plot(x_vals, pdf_vals)
plt.fill_between(x_vals, pdf_vals, where=[0 <= x <= 1 for x in x_vals], alpha=0.1)
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 2)
plt.title(r'Cumulatieve verdelingsfunctie $\Phi_X(x)$')
plt.plot(x_vals, cdf_vals)
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

bar_width_triangle = 0.1
bar_gap = 0.005
x_riemann_triangle = [i * bar_width_triangle for i in range(10)]
pdf_riemann_triangle = [pdf_reverse_triangle(x + 0.05) for x in x_riemann_triangle]
cdf_riemann_triangle = np.cumsum([p * bar_width_triangle for p in pdf_riemann_triangle])
colors_triangle = [plt.cm.Blues(1 - i / len(x_riemann_triangle)) for i in range(len(x_riemann_triangle))]

plt.subplot(2, 2, 3)
plt.title(r'Gediscretiseerde dichtheidsfunctie $\pi_X(x)$')
for i, x in enumerate(x_riemann_triangle):
    plt.bar(x, pdf_riemann_triangle[i], width=bar_width_triangle-bar_gap, align='edge', color=colors_triangle[i])
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(2, 2, 4)
plt.title(r'Gediscretiseerde cumulatieve verdelingsfunctie $\Phi_X(x)$')
for i in range(len(x_riemann_triangle)):
    for j in range(i + 1):
        plt.bar(
            x_riemann_triangle[i],
            pdf_riemann_triangle[j] * bar_width_triangle,
            width=bar_width_triangle - bar_gap,
            align='edge',
            color=colors_triangle[j],
            bottom=np.sum([p * bar_width_triangle for p in pdf_riemann_triangle[:j]]) if j > 0 else 0,
        )
for x_repeat in [1]:
    for i in range(len(x_riemann_triangle)):
        plt.bar(
            x_repeat,
            pdf_riemann_triangle[i] * bar_width_triangle,
            width=bar_width_triangle - bar_gap,
            align='edge',
            color=colors_triangle[i],
            bottom=np.sum([p * bar_width_triangle for p in pdf_riemann_triangle[:i]]) if i > 0 else 0,
        )
plt.xlabel('$x$')
plt.xlim(-0.1, 1.1)
plt.ylim(0, 2.15)
plt.yticks(np.arange(0, 2.15, 0.2))
plt.grid(linestyle='--', alpha=0.7)

Voorbeeld 4: complexe dichtheidsfunctie¶

We hebben een samengestelde dichtheidsfunctie die bestaat uit een trapezium en een rechthoek:

Voor $1 \leq x \leq 2$: Een stijgende lijn van $0$ naar $0.20$
- Dit segment moeten we vertalen in een dalparabool van $(1, 0)$ naar $(2, 0.10)$
Voor $2 \leq x \leq 5$: Een horizontale lijn t.h.v. $0.20$
- Dit segment moeten we vertalen in een stijgende rechte van $(2, 0.10)$ naar $(5, 0.70)$
Voor $5 \leq x \leq 6$: Een dalende lijn van $0.20$ naar $0$
- Dit segment moeten we vertalen in een bergparabool van $(5, 0.70)$ naar $(6, 0.80)$
Voor $7 \leq x \leq 8$: Een horizontale lijn t.h.v. $0.20$
- Dit segment moeten we vertalen in een stijgende rechte van $(7, 0.80)$ naar $(8, 1.00)$
De tussenliggende waarden zijn nul
- Deze segmenten moeten we vertalen in horizontale lijnen

We kunnen dit als volgt beschrijven:

$$ \varphi_X(x) = \begin{cases} 0.20(x - 1) & \mid 1 \leq x \leq 2 \\ 0.20 & \mid 2 < x \leq 5 \\ -0.20(x - 6) & \mid 5 < x \leq 6 \\ 0.20 & \mid 7 \leq x \leq 8 \\ 0 & \text{elders} \end{cases} $$

Voor de liefhebbers (dit moet je niet kunnen uitschrijven op het examen):

$$ \Phi_X(x) = \begin{cases} 0 & \mid x < 1 \\ 0.10(x - 1)^2 & \mid 1 \leq x \leq 2 \\ 0.10 + 0.20(x - 2) & \mid 2 < x \leq 5 \\ 0.70 + 0.10(1 - (6 - x)^2) & \mid 5 < x \leq 6 \\ 0.80 & \mid 6 < x \leq 7 \\ 0.80 + 0.20(x - 7) & \mid 7 < x \leq 8 \\ 1 & \mid x > 8 \end{cases} $$

De constante $C$ die steeds uit de berekening van een integraal rolt, kiezen we hier zodanig dat elk segment van de grafiek mooi aansluit op het vorige.

In [109]:

def pdf_composite(x):
    if 1 <= x <= 2:
        return (x - 1) / 5
    elif 2 < x <= 5:
        return 0.20
    elif 5 < x <= 6:
        return -(x - 6) / 5
    elif 7 <= x <= 8:
        return 0.20
    else:
        return 0

def cdf_composite(x):
    if x < 1:
        return 0
    elif 1 <= x <= 2:
        return (x - 1)**2 / 10
    elif 2 < x <= 5:
        return 0.1 + 0.20 * (x - 2)
    elif 5 < x <= 6:
        return 0.7 + (1 - (6 - x)**2) / 10
    elif 6 < x <= 7:
        return 0.8
    elif 7 < x <= 8:
        return 0.8 + 0.2 * (x - 7)
    else:
        return 1

pdf_segments = {
    "0 <= x < 1": {"x": np.linspace(0, 1, 100), "color": "gray"},
    "1 <= x < 2": {"x": np.linspace(1, 2, 100), "color": "blue"},
    "2 <= x < 5": {"x": np.linspace(2, 5, 100), "color": "green"},
    "5 <= x < 6": {"x": np.linspace(5, 6, 100), "color": "red"},
    "6 <= x < 7": {"x": np.linspace(6, 6.99, 100), "color": "orange"},
    "7 <= x < 8": {"x": np.linspace(7, 8, 100), "color": "purple"},
    "8 <= x < 9": {"x": np.linspace(8.01, 9, 100), "color": "gray"},
}

cdf_segments = {
    "0 <= x < 1": {"x": np.linspace(0, 1, 100), "color": "gray"},
    "1 <= x < 2": {"x": np.linspace(1, 2, 100), "color": "blue"},
    "2 <= x < 5": {"x": np.linspace(2, 5, 100), "color": "green"},
    "5 <= x < 6": {"x": np.linspace(5, 6, 100), "color": "red"},
    "6 <= x < 7": {"x": np.linspace(6, 7, 100), "color": "orange"},
    "7 <= x < 8": {"x": np.linspace(7, 8, 100), "color": "purple"},
    "8 <= x < 9": {"x": np.linspace(8, 9, 100), "color": "gray"},
}

colors = [plt.cm.Blues(i / len(pdf_segments)) for i in range(len(pdf_segments))]

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title(r'Dichtheidsfunctie $\varphi_X(x)$')

for label, segment in pdf_segments.items():
    x_segment = segment["x"]
    pdf_segment_vals = [pdf_composite(x) for x in x_segment]
    plt.plot(x_segment, pdf_segment_vals, color=segment["color"])
    plt.fill_between(x_segment, pdf_segment_vals, alpha=0.1, color=segment["color"])

plt.xlabel('$x$')
plt.xlim(0, 9)
plt.ylim(0, 1.05)
plt.yticks(np.arange(0, 1.05, 0.1))
plt.grid(linestyle='--', alpha=0.7)

plt.subplot(1, 2, 2)
plt.title(r'Cumulatieve verdelingsfunctie $\Phi_X(x)$')

for label, segment in cdf_segments.items():
    x_segment = segment["x"]
    cdf_segment_vals = [cdf_composite(x) for x in x_segment]
    plt.plot(x_segment, cdf_segment_vals, color=segment["color"])

plt.xlabel('$x$')
plt.xlim(0, 9)
plt.ylim(0, 1.05)
plt.yticks(np.arange(0, 1.05, 0.1))
plt.grid(linestyle='--', alpha=0.7)

Conclusie¶

Om een schets te maken van $\Phi_X(x)$ kan je $\varphi_X(x)$ segment per segment vertalen. Eerst bepaal je de begin en eindcoordinaat o.b.v. de oppervlakte onder $\varphi_X(x)$ tot respectievelijk het begin en het einde van het segment. Vervolgens bepaal je de vorm van de lijn tussen de twee coordinaten die je nodig hebt:

$\varphi_X(x)$ segment	$\Phi_X(x)$ segment
$0$	horizontale lijn
horizontale lijn	stijgende rechte
stijgende rechte	dalparabool
dalende rechte	bergparabool

Dubbelcheck op het einde steeds dat je op oppervlakte $1.0$ uitkomt.

Statistische maten voor lineaire transformaties

Mean Sigma

2024-12-18

Lineaire transformaties: wie zijn ze? Wat doen ze? Wat drijft hen?

Stel je hebt een variabele $X$ . Dan kan je een nieuwe variabele $L$ berekenen aan de hand van een lineaire transformatiefunctie $l(x) = ax+b$ door die functie op elke waarde van $x$ toe te passen. Notatie: $L = l(X)$ .

Voorbeeld:

gegeven
- $X$ : zie tabel
- $l(x) = -2x+3$
- $L = l(X) = -2X+3$
gevraagd
- $\overline x$
- $\overline l$

$X$	$freq_X$
$1$	$1$
$2$	$2$
$3$	$1$

oplossing
- $\overline x = \frac{1 \cdot 1 + 2 \cdot 2 + 3 \cdot 1}{4} = 2$
- $\overline l = \ldots$

De normale manier ( $\overline l = \overline{ax+b}$ )

Op basis van deze gegevens kunnen we de tabel uitbreiden met $L$ . Eens je alle waarden van $L$ berekend hebt, kan je er verdere analyses op doen. Zo kan je verschillende statistische maten van $L$ (gemiddelde, variantie, ...) berekenen. Je hebt daarvoor geen speciale formules van lineaire transformaties nodig. Je kan gewoon dezelfde formules gebruiken als diegene die je zou gebruiken om $X$ te analyseren.

$X$	$freq_X$	$L$	$freq_L$
$1$	$1$	$-2 \cdot 1 + 3 = 1$	$1$
$2$	$2$	$-2 \cdot 2 + 3 = -1$	$2$
$3$	$1$	$-2 \cdot 3 + 3 = -3$	$1$

oplossing (vervolg)
- - $= \overline{-2x+3}$
  - $= \frac{(-2 \cdot 1 + 3) \cdot 1 + (-2 \cdot 2 + 3) \cdot 2 + (-2 \cdot 3 + 3) \cdot 1}{4}$
  - $= \frac{1 \cdot 1 + (-1) \cdot 2 + (-3) \cdot 1}{4}$
  - $= -1$

De shortcut ( $\overline l = a \overline x + b$ )

Wat hierboven opvalt is dat $\overline l = -1$ net die $l$ -waarde is die bij de $x$ -waarde $2$ hoort, en dat $\overline x = 2$ . Met andere woorden: $l(2) = -2 \cdot 2 + 3 = -1$ . Dat is geen toeval:

- $= \frac{(-2 \cdot 1 + 3) \cdot 1 + (-2 \cdot 2 + 3) \cdot 2 + (-2 \cdot 3 + 3) \cdot 1}{4}$
- $= \frac{(-2 \cdot 1) \cdot 1 + (-2 \cdot 2) \cdot 2 + (-2 \cdot 3) \cdot 1 + 3 \cdot 4}{4}$
- $= \frac{(-2 \cdot 1) \cdot 1 + (-2 \cdot 2) \cdot 2 + (-2 \cdot 3) \cdot 1}{4} + 3$
- $= -2 \cdot \frac{(1 \cdot 1) + (2 \cdot 2) + (1 \cdot 1)}{4} + 3$
- $= -2 \overline x + 3$
- $= l(\overline x)$

Meer algemeen geldt dus: $l(\overline x) = a \overline x + b = \overline l = \overline{l(x)} = \overline{ax+b}$ . Dit inzicht kunnen we gebruiken als shortcut. In plaats van eerst de tabel uit te breiden met alle waardes van $L$ - wat voor grotere steekproeven toch wat werk vraagt - kunnen we direct $\overline l = a \overline x + b$ uit $\overline x$ berekenen. De formules voor lineaire transformaties openen dus geen nieuwe deuren, ze stellen ons enkel in staat om bepaalde berekeningen efficienter te doen.

We nemen opnieuw hetzelfde voorbeeld:

gegeven
- $X$ : zie tabel
- $l(x) = -2x+3$
- $L = l(X) = -2X+3$
gevraagd
- $\overline x$
- $\overline l$

$X$	$freq_X$
$1$	$1$
$2$	$2$
$3$	$1$

oplossing
- $\overline x = \frac{1 \cdot 1 + 2 \cdot 2 + 3 \cdot 1}{4} = 2$
- $\overline l = l(\overline x) = a\overline x + b = -2 \cdot 2 + 3 = -1$

We komen dus inderdaad dezelfde uitkomst uit, maar op een veel kortere manier.

Overzicht formules

We hebben de shortcut voor lineaire transformaties nu aangetoond voor gemiddeldes, maar er zijn ook shortcuts voor een hele hoop andere statistische maten. Probeer elk van onderstaande maten eens te berekenen op het voorbeeld hierboven met en zonder shortcut. Je zal snel merken dat je op de tweede manier veel tijd bespaart. Door dit op beide manieren uit te testen ga je ook beter begrijpen waarom onderstaande formules wel of niet werken.

centrale tendensmaten
- gemiddelde
  - $\overline{ax+b} = a \overline x + b$
- mediaan
  - $Me_{ax+b} \neq a Me_x + b$
- modus
  - $\operatorname{modus}(ax+b) \neq a \operatorname{modus}(x) + b$
spreidingsmaten
- $a$ komt enkel voor als absolute waarde of kwadraat zodat ook bij $a<0$ de spreiding positief blijft
- $b$ geeft geen effect want verschuivingen beinvloeden de spreiding niet
- variantie
  - $s_{ax+b}^2 = a^2 s_x^2$
  - $s_{ax+b}^{\prime 2} = a^2 s_x^{\prime 2}$
- standaarddeviatie
  - $s_{ax+b} = |a| s_x$
  - $s'_{ax+b} = |a| s'_x$
- bereik
  - $\operatorname{bereik}(ax+b) \neq a \operatorname{bereik}(x) + b$
- interkwartielbereik
  - $\operatorname{IQR}(ax+b) \neq a \operatorname{IQR}(x) + b$
associatiematen
- $b$ heeft opnieuw geen effect
- de transformatie mag ook in de tweede variabele zitten aangezien $s_{xy} = s_{yx}$ en $r_{xy} = r_{yx}$
- covariantie
  - mag negatief zijn, dus $a$ heeft geen absolute waarde of kwadraat nodig
  - $s_{ax+b\;\;y} = as_{xy}$
  - $s_{x\;\;ay+b} = as_{xy}$
  - $s'_{ax+b\;\;y} = as'_{xy}$
  - $s'_{x\;\;ay+b} = as'_{xy}$
  - merk op dat $s_{ax+b}^2 = s_{ax+b\;\;ax+b} = as_{x\;\;ax+b} = a^2s_{xx} = a^2 s_x^2$
- correlatie
  - moet in interval blijven liggen, dus we kunnen niet zomaar met vermenigvuldigen
    - enkel het teken van $a$ heeft nog een effect
  - $r_{ax+b\;\;y} = +r_{xy}$ als $a \geq 0$
  - $r_{ax+b\;\;y} = -r_{xy}$ als $a < 0$
  - $r_{x\;\;ay+b} = +r_{xy}$ als $a \geq 0$
  - $r_{x\;\;ay+b} = -r_{xy}$ als $a < 0$

Voor de tegenhangers uit inductieve statistiek ( $\mu_X, \sigma_X^2, \sigma_X, \sigma_{XY}, \rho_{XY}$ ) gelden dezelfde regels.

Conclusie

Voor lineaire transformaties is het meestal een goed idee om de shortcuts te gebruiken om statistische maten te berekenen. Onthoud wel dat deze shortcuts enkel gelden voor lineaire transformaties. Niet-lineaire transformaties zoals $\log(x), \sqrt{x}, of x^2$ hebben geen kortere formules. Daarbij moet je dus de normale manier blijven gebruiken.

Bivariate kansmassafunctie berekenen uit bivariate cumulatieve kansmassafunctie

Mean Sigma

2024-12-01

De bivariate kansmassafunctie $\pi_{X,Y}(x, y)$ geeft de kans $P(X=x$ en $Y=y)$ weer. De bivariate cumulatieve kansmassafunctie $\Phi_{X,Y}(x,y)$ daarentegen geeft de kans $P(X \leq x$ en $Y \leq y)$ weer. Het is redelijk eenvoudig om $\Phi_{X,Y}(x,y)$ uit $\pi_{X,Y}(x, y)$ te berekenen, maar hoe ga je te werk als je de omgekeerde vraag krijgt?

Voorbeeld 1

Voorbeeld 2

Laten we een concreet voorbeeld bekijken met een 3x4 tabel voor de cumulatieve kansmassafunctie $\Phi_{X,Y}(x,y)$ . Stel dat we de volgende tabel hebben:

$\Phi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=1$	0.1	0.2	0.3	0.4
$X=2$	0.2	0.4	0.5	0.7
$X=3$	0.3	0.6	0.8	1.0

Dit betekent dat bijvoorbeeld $\Phi_{X,Y}(2,3) = P(X \leq 2, Y \leq 3) = 0.5$ .

We willen nu de bijbehorende kansmassafunctie $\pi_{X,Y}(x,y)$ berekenen. Begin met de eerste (laagste) rij en de eerste (laagste) kolom aangezien die vrij eenvoudig zijn:

$\pi_{X,Y}(1, 1) = \Phi_{X,Y}(1,1) = 0.1$
$\pi_{X,Y}(1, 2) = \Phi_{X,Y}(1,2) - \Phi_{X,Y}(1,1) = 0.2 - 0.1 = 0.1$
$\pi_{X,Y}(1, 3) = \Phi_{X,Y}(1,3) - \Phi_{X,Y}(1,2) = 0.3 - 0.2 = 0.1$
$\pi_{X,Y}(1, 4) = \Phi_{X,Y}(1,4) - \Phi_{X,Y}(1,3) = 0.4 - 0.3 = 0.1$
$\pi_{X,Y}(2, 1) = \Phi_{X,Y}(2,1) - \Phi_{X,Y}(1,1) = 0.2 - 0.1 = 0.1$
$\pi_{X,Y}(3, 1) = \Phi_{X,Y}(3,1) - \Phi_{X,Y}(2,1) = 0.3 - 0.2 = 0.1$

$\pi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=1$	0.1	0.1	0.1	0.1
$X=2$	0.1	?	?	?
$X=3$	0.1	?	?	?

Voor alle duidelijkheid: als $X=3$ in de eerste rij stond, zouden we nog steeds met de $X=1$ rij beginnen aangezien cumulatieve berekeningen altijd van kleine naar grote waarden gebeuren.

$\pi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=3$	0.1	?	?	?
$X=2$	0.1	?	?	?
$X=1$	0.1	0.1	0.1	0.1

Met deze nieuwe gegevens kunnen we gemakkelijk $\pi_{X,Y}(2,2)$ berekenen. $\pi_{X,Y}(1,1) + \pi_{X,Y}(1,2) + \pi_{X,Y}(2,1) = 0.3$ , dus moet $\pi_{X,Y}(2,2)=0.1$ om samen $\Phi_{X,Y}(2,2) = 0.4$ uit te komen.

$\pi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=1$	0.1	0.1	0.1	0.1
$X=2$	0.1	0.1	?	?
$X=3$	0.1	?	?	?

In plaats van enkel naar $\pi_{X,Y}$ te kijken kunnen we ook info uit $\pi_{X,Y}$ en $\Phi_{X,Y}$ combineren om onszelf wat rekenwerk te besparen: $\pi_{X,Y}(2,3) = \Phi_{X,Y}(2,3) - \Phi_{X,Y}(2,2) - \pi_{X,Y}(1,3) = 0.5 - 0.4 - 0.1 = 0$

$\pi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=1$	0.1	0.1	0.1	0.1
$X=2$	0.1	0.1	0	?
$X=3$	0.1	?	?	?

De rest van de tabel kunnen we op een gelijkaardige manier aanvullen:

$\pi_{X,Y}$	$Y=1$	$2$	$3$	$4$
$X=1$	0.1	0.1	0.1	0.1
$X=2$	0.1	0.1	0	0.1
$X=3$	0.1	0.1	0.1	0

Dubbelcheck op het einde dat $\sum_j \sum_{j'} \pi_{X,Y}(x_j, y_{j'}) = 1$ .

Als je niet heel de tabel moet berekenen, maar enkel één specifieke waarde nodig hebt, kan volgende formule nuttig zijn:

$\pi_{X,Y}(x, y) = \Phi_{X,Y}(x, y) - \Phi_{X,Y}(x-1, y) - \Phi_{X,Y}(x, y-1) + \Phi_{X,Y}(x-1, y-1)$

Gotcha's

Mean Sigma

2024-11-16

Hieronder beschrijven we enkele instinkers die elk jaar opnieuw studenten doen struikelen op het (proef)examen.

"Geval 2" bij kwantielen

bij de meeste oefeningen rond kwantielen zit je in "geval 1": de gezocht waarde komt niet voor in de $F_X$ kolom
uitzonderlijk komt de waarde wel voor in de kolom ("geval 2")
- neem dan het gemiddelde van huidige en eerstvolgende x-waarde

$X$	$F_X$
1	0.2
2	1.0

$x_{0.20} = \frac{1+2}{2}$

X-waarden met frequentie nul

gegeven

$X$	$cfreq_X$
1	2
2	2
3	5
4	9
5	9
6	9
7	10

bereken frequenties en cumulatieve proporties

$X$	$cfreq_X$	$freq_X$	$F_X$
1	2	2	0.2
2	2	0	0.2
3	5	3	0.5
4	9	4	0.9
5	9	0	0.9
6	9	0	0.9
7	10	1	1.0

waarden $2, 5, 6$ komen dus eigenlijk niet voor
kan verwarrend zijn voor kwantielberekeningen
- voorbeeld: $D_2 = x_{0.20} = \frac{1+3}{2}=2$
oplossing: schrap waarden uit tabel

$X$	$cfreq_X$	$freq_X$	$F_X$
1	2	2	0.2
3	5	3	0.5
4	9	4	0.9
7	10	1	1.0

Tchebychev: niet vergeten afronden

Tchebychev levert een proportie $p \in [0, 1]$ op
vermenigvuldig met $n$ om naar frequentie te gaan
rond correct af tot op geheel getal
- niet: onder .5 naar onder, anders naar boven afronden
- wel: vraag goed lezen en dan juiste keuze maken

Transformaties die sortering beinvloeden

gevaar 1: transformatie draait gesorteerde gegevens om
- voorbeeld $Y_1 = -X$
- probleem voor berekening $cfreq$ , $F$ , kwantielen
gevaar 2: transformatie is geen bijectie en voegt waardes samen
- voorbeeld: $Y_2 = |X|$ (of $X^2$ )
oplossing: maak extra tabel gesorteerd op de nieuwe waarde

$X$	$freq_X$	$cfreq_X$	$Y_1=-X$	$cfreq_{Y_1}$	$Y_2=\\|X\\|$
-2	3	3	2	$\neq 3$	2
0	1	4	0	$\neq 4$	0
2	2	6	-2	$\neq 6$	2

$Y_1$	$freq_{Y_1}$	$cfreq_{Y_1}$
-2	2	2
0	1	3
2	3	6

$Y_2$	$freq_{Y_2}$	$cfreq_{Y_2}$
0	1	1
2	5	6

Bivariate freqentiefuncties via ZRM

zie deze blogpost

Somvariabelen van standaarddeviaties

geen rechtstreekse formule
bereken via $s_x = \sqrt{s_x^2}$

Somvariabelen van correlaties

geen rechtstreekse formule
bereken via $r_{xy} = \frac{s_{xy}}{\sqrt{s_x^2 s_y^2}}$

Verschil tussen disjunct en statistisch onafhankelijk

disjunct
- $A \cap B = \varnothing$
- $\#(A \cup B) = \#A + \#B$
- $P(A \cap B) = 0$
- $P(A \cup B) = P(A) + P(B)$
onafhankelijk
- $P(A \mid B) = P(A)$
- $P(B \mid A) = P(B)$
- $P(A \cap B) = P(A) P(B)$

Ongelijkheden

strikt
- groter dan $\geq$ vs. strikt groter dan $>$
- kleiner dan $\leq$ vs. strikt kleiner dan $<$
- voorbeeld: $X=8$ is geen geldige waarde voor $|X-5| < 3$ maar wel voor $|X-5| \leq 3$
complementen
- $<$ $\longleftrightarrow$ $\geq$
- $>$ $\longleftrightarrow$ $\leq$
- voorbeeld: $P(X < a) = 1 - P(X \geq a)$

Inhoudstafel statistiek 1 (updated)

Mean Sigma

2024-10-29

Deze post is een vervolg op de oude inhoudstafel.

Overzicht inhoud statistiek 1 — **Figuur 1**: Bijgewerkt overzicht inhoud statistiek 1

Tip voor oefeningen combinatoriek: vereenvoudigen

Mean Sigma

2024-08-17

In tegenstelling tot veel oefeningen rond statistiek, is het bij combinatoriek moeilijk om een uitkomst te dubbelchecken. Daardoor is het moeilijk om zeker te weten of je op de goede weg bent. Een alternatief is om een vereenvoudigde versie van de gegeven oefening uit te werken. Daarbij kan je dan alle mogelijk combinaties uitschrijven om te kijken of dat aantal overeenkomt met jouw formule.

Voorbeeld

Neem opgave 8 van practicum 5. Dit is een klassieke oefening op combinatoriek. Er zijn drie brieven en zes brievenbussen. Je vermoedt dat de uitkomst $6 \cdot 5 \cdot 4 = 120$ gaat zijn. Dat is een vrij groot getal, dus alle combinaties uitschrijven om te dubbelchecken gaat lastig zijn. In de plaats daarvan kan je dezelfde oefening oplossen voor twee brieven (1, 2) en drie brievenbussen (A, B, C). Onze voorspelling is dan dat - met dezelfde aanpak als hierboven - de uitkomst $3 \cdot 2 = 6$ zal zijn. Schrijf vervolgens alle combinaties uit, en kijk of het klopt.

(Zoals gewoonlijk helpt het om hierbij een tekening te maken om een beter zicht te krijgen op alle mogelijkheden.)

1A, 2B
1A, 2C
1B, 2A
1B, 2C
1C, 2A
1C, 2B

Perfect! Zes is inderdaad het juiste antwoord. Dat is een sterk signaal dat onze aanpak klopt, en ook geldig zal zijn voor de originele oefening.

Je moet bij deze strategie de balans te vinden tussen enerzijds voldoende kleine getallen kiezen zodat het aantal combinaties beperkt blijft, maar anderzijds ook niet te laag gaan. Werken met het cijfer twee is bijvoorbeeld altijd een risico omdat $2 + 2 = 2 \cdot 2 = 2^2$ . Zo krijg je met een foute formule soms toch een vals gevoel van veiligheid als je puur toevallig het juiste aantal uitkomt. Dat probleem ga je veel minder hebben bij getallen groter dan twee. In ons voorbeeld is $2 + 3 \neq 2 \cdot 3 \neq 2^3 \neq 3^2$ , dus we zouden al veel pech moeten hebben als we dan met een foute formule toevallig toch op de juiste uitkomst zouden uitkomen.

Dit was nog een redelijk eenvoudige oefening, maar dezelfde strategie kan je ook bij moeilijkere oefeningen gebruiken. Vereenvoudig de opgave zodat het volledig uitschrijven van alle combinaties haalbaar wordt, en dubbelcheck vervolgens of jouw methode het juiste antwoord geeft.

Reconstructie examen Statistiek 1 - januari 2024

Mean Sigma

2024-01-15

Dit is de eerste examenperiode met prof. De Roover. We zijn dan ook erg benieuwd hoe verschillend haar examens zijn t.o.v. haar voorganger prof. Van Mechelen. Onderstaande reconstructie werd uitgewerkt op basis van de Google docs van de studenten. Het document is helaas onvolledig en bevat een aantal fouten, wat een perfecte reconstructie onmogelijk maakt.

Eerste indruk
Meerkeuzevragen
- Q1
- Q2
- Q3
- Q4
- Q5
- Q6
- Q7
- Q8
- Q9
- Q10
- Q11
- Q12
- Q13
- Q14
- Q15
Open vragen
- Q16
- Q17
- Q18
- Q19
- Q20

Eerste indruk

wat bleef hetzelfde
- grote lijn zijn onveranderd
- populaire topics
  - kansrekenen
  - optimale lineaire voorspelling
  - somvariabelen
  - scatterplot tekenen
wat is nieuw
- 15 meerkeuze + 5 open vragen
  - in plaats van 15 open vragen
  - de drie foute alternatieven zijn niet random maar gebaseerd op veelgemaakte fouten
  - puntenverdeling
    - vroeger: 2 punten per vraag
    - nu
      - 1 punt per meerkeuzevraag (met giscorrectie)?
      - 2 punten per open vraag?
- geen bewijzen
- geen vraag over verzamelingenleer
- weinig combinatoriek
- beperkt aantal vragen over nieuwe leerstof (modellen)
- meer Steiner en Tchebychev oefeningen
- meer weggevertjes
- Van Mechelen had elke examenperiode nieuwe vragen
  - maar hier merken we toch wat hergebruik van oude vragen op

Meerkeuzevragen

Q1

gegeven

$\pi_{X,Y}$	$Y=1$	$Y=2$
$X=0$	$0.30$	$0.40$
$X=1$	$0.20$	$0.10$

gevraagd
- $\Phi_{2X+5Y}(11)$
opties
1. 0.50
2. 0.75
3. 0.90
4. 1.00
oplossing
- $S = 2X + 5Y$
- tabel omvormen
- tabel uitbreiden met
  - opgelet: sorteren op $S$ van klein naar groot
- $\Phi_S(11) = 0.90$

$Y$	$X$	$\pi_{X,Y}$
1	0	0.30
1	1	0.20
2	0	0.40
2	1	0.10

$Y$	$X$	$S=2X+5Y$	$\pi_{X,Y}$	$\pi_S$	$\Phi_S$
1	0	5	0.30	0.30	0.30
-	-	6	-	0.00	0.30
1	1	7	0.20	0.20	0.50
-	-	8	-	0.00	0.50
-	-	9	-	0.00	0.50
2	0	10	0.40	0.40	0.90
-	-	11	-	0.00	0.90
2	1	12	0.10	0.10	1.00

Q2

gegeven
- cfreq
gevraagd
- $\sum_i \sum_{i'} (x_i - x_{i'})^2$
oplossing
- cfreq -> freq
- $s_x^2$ via ZRM
- $2s_x^2 = \frac{\sum_i \sum_{i'} (x_i - x_{i'})^2}{n^2}$
- $\iff 2 n^2 s_x^2 = \sum_i \sum_{i'} (x_i - x_{i'})^2$

Q3

gegeven
- ?
gevraagd
- $Pc_{0.30}$

Q4

gegeven
- $X \sim N(80, 5^2)$
gevraagd
- welke stelling is onjuist?
  - de dichtheid van ... is kleiner dan die van ...
  - de dichtheid van ... is kleiner dan die van ...
  - de dichtheid van ... is kleiner dan die van ...
  - de dichtheid van ... is kleiner dan die van ...
oplossing
- dichtheid $\varphi_X(x)$ is lager als $x$ verder weg ligt van $\mu_X$
- bereken afstand
  - grotere afstand $\iff$ lagere dichtheid
  - $|79 - 80| = 1$
  - $|72 - 80| = 8$
  - $|91 - 80| = 11$
  - $|68 - 80| = 12$
- dus $\varphi_X(68) < \varphi_X(91) < \varphi_X(72) < \varphi_X(79)$

Q5

gegeven
- klas, $n=35$
- $\overline x = 12.6$
- gemiddelde gekwadrateerde verschil van de punten met 10 is 9.1
gevraagd
- $s_x^2$
oplossing
- $\overline{(x - 10)^2} = 9.1$
- Steiner
  - $\overline{(x - 10)^2} = \overline{(x - 12.6)^2} + (12.6 - 10)^2$
  - $\iff 9.1 = \overline{(x - 12.6)^2} + 2.6^2$
  - $\iff \overline{(x - 12.6)^2} = 2.34$
  - $\iff s_x^2 = 2.34$

Q6

gegeven
- test met score $X$ op 20
- omgezet naar score $Y$ op 100
- $\mu_Y = 61.5$
- i.i.d.
gevraagd
- $\sigma_Y$
oplossing
- $\mu_X = \frac{61.5}{5} = 12.3$
- - doet er niet toe dat score is omgezet op 100
  - er zijn maar 20 vragen, dus 20 kansen om punten te verdienen
- $\theta = \frac{12.3}{20} = \frac{61.5}{100} = 0.615$
- $X \sim Bin(20, 0.615)$
- $\sigma_X^2 = n\theta(1-\theta) = 20 \cdot 0.615 \cdot 0.385 = 4.7355$
- $\sigma_X = \sqrt{4.7355} \approx 2.1761$
- $Y = 5X$
- $\sigma_Y = \sigma_{5X} = |5|\sigma_X = \approx 10.8806$
opties
- 2.1761 -> dit is $\sigma_X$
- 10.8806 -> dit is $\sigma_Y$
- 23.6775 -> dit is $\sigma_A^2$ met $A \sim Bin(100, 0.615)$
- 4.8660 -> dit is $\sigma_A$

Q7

gegeven
- 14 koppels $(x,y)$
gevraagd
- $Me_{X \mid Y=3}$
oplossing
- neem koppels waar $Y=3$
- sorteer o.b.v. $x$ -waarde van klein naar groot
- als oneven
  - neem middelste waarde
- als even
  - neem gemiddelde van twee middelste waardes

Q8

gegeven
- ?
gevraagd
- lineaire transformatie van covariantie
oplossing
- rekenregel
  - $s_{ax+b\;\;y} = as_{xy}$
- en aangezien geldt ook
  - $s_{x\;\;cy+d} = s_{cy+d\;\;x} = cs_{yx} = cs_{xy}$
- gecombineerd
  - $s_{ax+b\;\;cy+d}$
  - $= as_{x\;\;cy+d}$ (regel lineaire transformatie toegepast op $ax+b$ )
  - $= acs_{xy}$ (regel lineaire transformatie toegepast op $cy+d$ )
  - ...

Q9

gegeven
- $P(X \geq 110) = 0.30$
- $P(Y \geq 110) = 0.10$
welke variabele kan $\mu=100$ en $\sigma=5$ hebben?
opties
- $X$ en $Y$
- enkel $X$
- enkel $Y$
- geen van beide
oplossing
- stel dat $\mu_X = \mu_Y = 100$ en $\sigma_X = \sigma_Y = 5$
- test
  - Tchebychev
    - $k = Z_X(110) = \frac{110 - 100}{5} = 2$
    - $P(|X - \mu_X| \geq k \sigma_X) \leq \frac{1}{k^2}$
    - $\iff P(|X-100| \geq 10) \leq \frac{1}{4}$
    - $\iff P(X \leq 90) + P(X \geq 110) \leq \frac{1}{4}$
    - $\iff P(X \geq 110) \leq \frac{1}{4}$
    - $\iff 0.30 \leq 0.25$
    - kan niet, dus gemiddele en/of variantie kloppen niet voor $X$
- test
  - Tchebychev
    - $k = Z_Y(110) = \frac{110 - 100}{5} = 2$
    - $P(|Y - \mu_Y| \geq k \sigma_Y) \leq \frac{1}{k^2}$
    - $\iff P(|Y-100| \geq 10) \leq \frac{1}{4}$
    - $\iff P(Y \leq 90) + P(Y \geq 110) \leq \frac{1}{4}$
    - $\iff P(Y \geq 110) \leq \frac{1}{4}$
    - $\iff 0.10 \leq 0.25$
    - OK

Q10

gegeven
- elke conditie komt even vaak voor
- tabel

	$X_2=-1$	$X_2=+1$
$X_1=-1$	$10$	$7$
$X_1=+1$	$8$	$6$

gevraagd
- welke waarde is fout?
  - $b_0 = 7.75$
  - $b_1 = -1.50$
  - $b_2 = -1.25$
  - $b_3 = 0.25$

oplossing
- $Y = b_0 + b_1 X_1 + b_2 X_2 + b_3 X_1 X_2$
- tabel uitbreiden (zie onder)
- dan is ...
  - $b_0 = 7.75$
  - $b_1 = (7-8.5)/2 = -0.75$
  - $b_2 = (6.5-9)/2 = -1.25$
  - als , dan
    - $b_0 + b_1 + b_2 + b_3 = 6 \iff b_3 = 0.25$
  - dus $b_1$ is fout

	$X_2=-1$	$X_2=+1$
$X_1=-1$	$10$	$7$	$8.5$
$X_1=+1$	$8$	$6$	$7$
	$9$	$6.5$	$7.75$

Q11

gegeven
- werp met twee dobbelstenen
- $X$ : hoogste aantal ogen van de twee
gevraagd
- $E[X]$
oplossing
- $X = \max(X_1, X_2)$
- tabellen opstellen
- $E[X] = 4.4722$ (ZRM)

$X_1$	$X_2$	$X$
1	1	1
1	2	2
1	3	3
1	4	4
1	5	5
1	6	6
2	1	2
2	2	2
...
5	6	6
6	1	6
6	2	6
6	3	6
6	4	6
6	5	6
6	6	6

$X$	$\pi_X$
1	1/36
2	3/36
3	5/36
4	7/36
5	9/36
6	11/36

Q12

gegeven
- grafiek
gevraagd
- interkwartielbereik $IQR$
oplossing
- $Q_1 = \ldots$
- $Q_3 = \ldots$
- $IQR = Q_3 - Q_1$

Q13

gegeven
- OLV
- $Y = f(X)$
- $a$ zit 1 standaarddeviatie boven gemiddelde
gevraagd
- $y^{est}(a)$
opties
- $\overline y - r_{xy} s_x$
- $\overline y + r_{xy} s_x$
- $\overline y - r_{xy} s_y$
- $\overline y + r_{xy} s_y$
oplossing
- $a = \overline x + 1 \cdot s_x$
- $y^{est}(a)$
- $= b_0 + b_1 a$
- $= b_0 + b_1 (\overline x + s_x)$
- $= (\overline y - b_1 \overline x) + b_1 (\overline x + s_x)$
- $= \overline y - b_1 \overline x + b_1 \overline x + b_1 s_x$
- $= \overline y + b_1 s_x$
- $= \overline y + r_{xy} \frac{s_y}{s_x} s_x$
- $= \overline y + r_{xy} s_y$

Q14

cf. examen 2020-01-13, vraag 7
gegeven
- $W = (X+1)(Y+1)$
- $\mu_X = \mu_Y = 0$
gevraagd
- $\mu_W$
opties
- $\mu_{XY}$
- $0$
- $\sigma_{XY} + 1$
- $1$
oplossing
- opgepast: $\mu_{X \cdot Y} \neq \mu_X \cdot \mu_Y$
- $W = XY + X + Y + 1$ (distributiviteit)
- - $= \mu_{XY} - \mu_X \mu_Y$ (chiastische eigenschap)
  - $= \mu_{XY}$ ( $\mu_X = \mu_Y = 0$ )
- - $= \mu_{XY} + \mu_X + \mu_Y + 1$ (somvariabelen)
  - $= \mu_{XY} + 1$
  - $= \sigma_{XY} + 1$

Q15

gegeven
- tabel
- OLV
gevraagd
- proportie verklaarde variantie
oplossing
- $r_{xy} = \ldots$
- $r_{xy}^2 = \ldots$

Open vragen

Q16

gegeven
- $X_1, X_2, X_3$ i.i.d.
gevraagd
- $\rho_{X_1\;\;X_1+X_2+X_3}$
oplossing
- - $= \sigma_{X_1}^2 + \sigma_{X_2}^2 + \sigma_{X_3}^2 + 2\sigma_{X_1 X_2} + 2\sigma_{X_1 X_3} + 2\sigma_{X_2 X_3}$ (somvariabelen variantie)
  - $= \sigma_{X_1}^2 + \sigma_{X_2}^2 + \sigma_{X_3}^2$ (onafhankelijk)
  - $= 3\sigma_{X_1}^2$ (identiek verdeeld, dus $\sigma_{X_1}^2 = \sigma_{X_2}^2 = \sigma_{X_3}^2$ )
- - $= \dfrac{\sigma_{X_1\;\;X_1+X_2+X_3}}{\sigma_{X_1} \sigma_{X_1+X_2+X_3}}$ (eigenschap correlatie)
  - $= \dfrac{\sigma_{X_1}^2 + \sigma_{X_1 X_2} + \sigma_{X_1 X_3}}{\sigma_{X_1} \sqrt{\sigma_{X_1+X_2+X_3}^2}}$ (somvariabelen covariantie)
  - $= \dfrac{\sigma_{X_1}^2}{\sigma_{X_1} \sqrt{\sigma_{X_1+X_2+X_3}^2}}$ (i.i.d.)
  - $= \dfrac{\sigma_{X_1}}{\sqrt{\sigma_{X_1+X_2+X_3}^2}}$ (vereenvoudig)
  - $= \dfrac{\sigma_{X_1}}{\sqrt{3\sigma_{X_1}^2}}$ (zie hierboven)
  - $= \dfrac{\sigma_{X_1}}{\sqrt{3}\sigma_{X_1}}$
  - $= \dfrac{1}{\sqrt{3}}$
  - $\approx 0.5774$
merk op
- $\rho_{X_1\;\;X_1} = 1$
- $\rho_{X_1\;\;3X_1} = 1$
- dit zou te gemakkelijk zijn voor een open vraag

Q17

gegeven
- $Y>5 \implies r_{xy} = 1$
- $Y<3 \implies r_{xy} = -1$
- $r_{xy} = 0$
gevraagd
- scatterplot
- 8 punten
oplossing
- (veel mogelijkheden)
- 4 punten op stijgende rechte vanaf $Y=6$
- spiegellijn halverwege tussen $3$ en $5$ , dus op $Y=4$
- 4 punten op dalende rechte vanaf $Y=2$

$X$	$Y$
1	6
2	7
3	8
4	9
1	2
2	1
3	0
4	-1

q17-plot

Q18

gegeven
- $\varphi_X(x)= 1 \mid x \in [0.05, 0.25]$
- $\varphi_X(x)= 2 \mid x \in [0.35, 0.65]$
- $\varphi_X(x)= 4 \mid x \in [0.80, 0.85]$
gevraagd
- teken $\Phi_X$
oplossing
- dubbelcheck oppervlakte onder
  - $1 \cdot (0.25-0.05) = 0.20$
  - $2 \cdot (0.65-0.35) = 0.60$
  - $4 \cdot (0.85-0.80) = 0.20$
  - $0.20 + 0.60 + 0.20 = 1$ -> OK
  - dus $\varphi_X(x) = 0$ op andere plaatsen
- teken
  - assen
    - horizontaal
      - label: $x$
      - schaal: $[0, 0.85]$ in stappen van $0.05$
    - verticaal
      - label: $\Phi_X(x)$
      - schaal: $[0, 1]$
  - elke rechthoek in $\varphi_X$ wordt een driehoek in $\Phi_X$

$X$	$\Phi_X$
0	0
0.05	0
0.25	0.20
0.35	0.20
0.65	0.80
0.80	0.80
0.85	1

q18-plot

Q19

gegeven
- $n=14$ dagen
- $X$ : stemming score $\in \{-2, -1, 0, 1, 2\}$
- $Y$ : dag
- $X, Y$ onafhankelijk
- $\pi_X(-1) = \pi_X(0) = \pi_X(1) = \pi_X(2)$
- $\pi_X(-2) = 0.5\pi_X(-1)$
gevraagd
- $E[S_X^2]$
oplossing
- stel $\pi_X(-2) = \theta$
- tabel opstellen
- $9\theta = 1 \iff \theta = \frac{1}{9}$
- $\sigma_X^2 = \frac{140}{81}$ (ZRM)
- $E[S_X^2]$
- $= \frac{n-1}{n} \sigma_X^2$
- $= \frac{13}{14} \frac{140}{81}$
- $= \frac{130}{81}$
- $\approx 1.6049$

$X$	$\pi_X$
$-2$	$\theta$
$-1$	$2\theta$
$0$	$2\theta$
$1$	$2\theta$
$2$	$2\theta$

Q20

cf. examen 2020-08-17, vraag 8
gegeven
- $L$ : lichamelijke klachten
- $V$ : cursus voltooid
- ?: therapie gevolgd
- $P(L) = 0.30$
- $P(V \mid L) = 0.70$
- $P(V \mid L^c) = 0.85$
gevraagd
- $P(L^c \mid V^c)$
oplossing
- $P(L^c) = 1 - P(L) = 0.70$
- $P(V^c \mid L) = 1 - P(V \mid L) = 0.30$
- $P(V^c \mid L^c) = 1 - P(V \mid L^c) = 0.15$
- $P(L^c \mid V^c)$
- $= \dfrac{P(V^c \mid L^c) P(L^c)}{P(V^c)}$
- $= \dfrac{P(V^c \mid L^c) P(L^c)}{P(V^c \mid L)p(L) + P(V^c \mid L^c)P(L^c)}$
- $= \dfrac{0.15 \cdot 0.70}{0.30 \cdot 0.30 + 0.15 \cdot 0.70}$
- $= \dfrac{0.105}{0.09 + 0.105}$
- $\approx 0.5385$

Nieuw examenformularium voor statistiek 1

Mean Sigma

2023-12-14

Bij prof. Van Mechelen mochten studenten geen formularium gebruiken voor statistiek 1. Voor statistiek 2 mocht wel een handgeschreven formularium van 2 blz. worden meegenomen. In het nieuwe curriculum is er nog een ander systeem: de prof voorziet een formularium en statistische tabellen als appendix bij de examenbundel. Helaas krijg je enkel de highlights over het deel rond statistische modellen. Formules uit de rest van de cursus moet je dus nog wel van buiten leren. Hieronder vind je een overzicht van wat je mag verwachten.

Statistische modellen

Bernoulli

$X \sim Bern(\vartheta)$
$\mu_X = \vartheta$
$\sigma_X^2 = \vartheta (1 - \vartheta)$

Binomiaal

$Y \sim Bin(n, \vartheta)$
$\pi_Y(k) = \binom{n}{k} \vartheta^k (1 - \vartheta)^{n-k}$
$\mu_Y = n\vartheta$
$\sigma_Y^2 = n\vartheta(1 - \vartheta)$

Geometrisch

$Z \sim Geo(\vartheta)$
$\pi_Z(k) = (1 - \vartheta)^{k-1} \vartheta$
$\mu_Z = \frac{1}{\vartheta}$
$\sigma_Z^2 = \frac{1 - \vartheta}{\vartheta^2}$

Poisson

$X \sim Poisson(\lambda)$
$\pi_X(k) = \frac{\lambda^k}{k!} e^{-\lambda}$
$\mu_X = \lambda$
$\sigma_X^2 = \lambda$

Exponentieel

$T \sim Expon(\lambda)$
- $= \lambda e^{-\lambda t} \mid t \geq 0$
- $= 0 \mid t < 0$
$\mu_T = \frac{1}{\lambda}$
$\sigma_T^2 = \frac{1}{\lambda^2}$
$\Phi_T(t) = 1 - e^{-\lambda t}$

Uniform

$X \sim \mathcal{U}(a,b)$
- $= \frac{1}{b-a} \mid a \leq x \leq b$
- $= 0 \mid \text{elders}$
$\mu_X = \frac{a+b}{2}$
$\sigma_X^2 = \frac{(a -b)^2}{12}$

Normaal

$X \sim N(\mu_X, \sigma_X^2)$
$\displaystyle \varphi_X(x) = \frac{1}{\sqrt{2\pi} \sigma_X} e^{-\frac{1}{2}\left(\frac{x-\mu_X}{\sigma_X}\right)^2}$

Statistische tabellen

Standaard normaalverdeling

$\Phi_X$ met $X \sim N(0, 1)$

$\Phi_X$	$X$
0.0005	-3.2905
0.001	-3.0902
...
0.999	3.0902
0.9995	3.2905

Hervorming statistiek (update)

Mean Sigma

2023-12-01

Nu de lessen van het eerste semester voorbij zijn, kunnen we meer in detail terugblikken op concrete veranderingen sinds de statistiek hervormingen begin dit academiejaar.

Wat in de eerste plaats opvalt, is dat de studielast in theorie verminderd is van 8 naar 7 studiepunten, maar dat er toch meer onderwerpen besproken worden in de cursus. Specifiek is het deel over statistische modellering uit het oude statistiek 2 vak overgeheveld naar statistiek 1. Daarin leren we o.a. over de Bernoulli-, Binomiaal- en Normaalverdelingen. Ik gaf voorheen al het advies aan studenten statistiek 1 om de binomiaalverdeling kort te bekijken, aangezien die stiekem in veel vragen voorkwam. Dat probleem is bij deze opgelost, maar de vraag blijft hoe we hier dan kunnen spreken over een daling in studiebelasting? Hoewel prof. De Roover niet meer verwijst naar de cursus van prof. Van Mechelen, is het duidelijk dat haar slides daar nog steeds heel sterk op gebaseerd zijn. Alle oude hoofdstukken zijn behouden gebleven, dus er moeten per hoofdstuk hier en daar elementen gesneuveld zijn om plaats te maken voor de nieuwe leerstof.

We merken vooraan in de cursus dat het hoofdstuk rond verzamelingenleer sterk vereenvoudigd is. De leerstof rond cartesische producten, machtsverzamelingen, partities en oneindige verzamelingen is weggevallen. Dat deel van de leerstof zorgde voor veel problemen bij studenten, maar was eigenlijk niet erg relevant voor de rest van de cursus. Ook logaritmes zijn subtiel weggewerkt uit de cursus.

Doorheen de cursus merken we ook dat de focus op bewijzen fel verminderd is. Hier en daar wordt nog wel aangetoond hoe men aan een formule komt, maar de vaardigheid heeft duidelijk aan belang ingeboet. Als er op het examen ook geen vragen over bewijzen meer komen, winnen studenten hier inderdaad opnieuw wat tijd. Dat verklaart ook ineens waarom er minder geoefend wordt op rekenen met $\sum$ sommatietekens (en dan vooral dubbele sommatietekens). Die had je namelijk vooral nodig om bewijzen uit te werken.

De cursus van Prof. Van Mechelen bevatte ook opdrachten (los van de practica) die bij de theorie hoorden. Die hielpen zeker om de leerstof te verwerken, maar zijn niet overgenomen in het lesmateriaal van prof. De Roover. Ook daar moeten studenten dus geen tijd meer insteken. (Wie toch benieuwd is, kan de vragen terugvinden onder de tab "Oplossingen" op deze site.)

We kunnen dus concluderen dat prof. De Roover vooral tijd heeft proberen te besparen op de wiskundige achtergrond, om zo toch voldoende tijd aan de statistische leerstof te kunnen besteden. Die is namelijk wel grotendeels gelijk gebleven, al merk je hier en daar ook wel enkele besparingen. Zo moeten formules voor somvariabelen nu niet meer gekend zijn voor $n$ variabelen, maar zijn de formules uitgewerkt voor het concrete geval van twee of drie variabelen. Ook Tchybychev moet het nu stellen met één formule in plaats van twee.

Veel is er verder niet veranderd. Er zijn nieuwe practicumopgaven die qua vorm nu een voorproefje zijn van de meerkeuzevragen die we op het examen mogen verwachten. Nochtans was het proefexamen (op het meerkeuze aspect na) heel gelijkaardig aan proefexamens van prof. Van Mechelen. Het is duidelijk dat de nieuwe docent dus vooral voor continuiteit gaat.

Nu is het vooral afwachten hoe haar eerste examen er zal uitzien. Gaat er nog iets gevraagd worden van verzamelingenleer? Gaat er nog een bewijs inzitten? Waarschijnlijk zal het antwoord tweemaal nee zijn. We weten ondertussen wel dat er een formularium aan het examen zal toegevoegd worden, maar dat gaat enkel over het deel rond statistische modellen, niet over de rest van de cursus.

We weten natuurlijk allemaal uit het tijdperk van prof. Van Mechelen dat de grote moeilijkheid van het vak niet echt in de inhoud zat, maar wel in de manier van verbeteren. Afwachten dus wat de moeilijkheidsgraad van het echte examen zal zijn, hoeveel meerkeuzevragen er zullen zijn t.o.v. de open vragen en hoe die open vragen verbeterd zullen worden.

Variantie en i.i.d.

Mean Sigma

2023-11-01

Wie het laatste hoofdstuk van deel 1 bestudeerd heeft, weet ondertussen waar i.i.d. voor staat: independent and identically distributed. Als $X$ en $Y$ onafhankelijk zijn, geldt dat:

$\pi_{X,Y}(x,y) = \pi_X(x) \pi_Y(y)$
$\varphi_{X,Y}(x,y) = \varphi_X(x) \varphi_Y(y)$

Als ze identiek verdeeld zijn, weten we dat hun verdelingsfuncties (kansmassafunctie of dichtheidsfunctie) exact hetzelfde zijn, en dat het dus weinig zin heeft om nog een subscript te gebruiken:

$\pi_X = \pi_Y = \pi$
$\varphi_X = \varphi_Y = \varphi$

Hoe kunnen we dat nu toepassen op varianties? Stel dat we $\sigma_{aX+bY+c}^2$ willen berekenen waarbij $X$ en $Y$ i.i.d. zijn. Dan beginnen we zoals altijd met de rekenregels van somvariabelen toe te passen:

$\sigma_{aX+bY+c}^2 = a^2 \sigma_X^2 + b^2 \sigma_Y^2 + 2ab\sigma_{XY}$

Normaal moeten we hier stoppen, maar met het extra gegeven van i.i.d. kunnen we nog verder gaan. Uit onafhankelijkheid volgt dat $\rho_{XY} = 0$ , en dus ook dat $\sigma_{XY} = 0$ :

$\sigma_{aX+bY+c}^2 = a^2 \sigma_X^2 + b^2 \sigma_Y^2$

We zijn er nu bijna, maar nog niet helemaal. We hebben al iets met de eerste i gedaan, maar nog niet met de tweede. Als $X$ en $Y$ identiek verdeeld zijn, zijn ook al hun statistische maten gelijk. Dus $\mu_X = \mu_Y$ en $\sigma_X = \sigma_Y$ . Zo komen we finaal tot:

$\sigma_{aX+bY+c}^2 = (a^2+b^2) \sigma_X^2$

We kunnen dit ook uitbreiden naar $X_1, \ldots, X_n$ i.i.d. Dan krijgen we:

$\sigma_{\sum_i a_i X_i}^2 = \sum_i a_i^2 \sigma_{X_i}^2 = (\sum_i a_i^2) \sigma_{X_1}^2$

Als $a_1 = \ldots = a_n = 1$ krijgen we tot slot:

$\sigma_{\sum_i X_i}^2 = \sum_i \sigma_{X_i}^2 = n \sigma_{X_1}^2$

Voorbeeld 1: rechthoekige dichtheidsfunctie¶

Voorbeeld 2: stijgende driehoekige dichtheidsfunctie¶

Voorbeeld 3: dalende driehoekige dichtheidsfunctie¶

Voorbeeld 4: complexe dichtheidsfunctie¶

Conclusie¶

De normale manier (\overline l = \overline{ax+b})

De shortcut (\overline l = a \overline x + b)

Overzicht formules

Conclusie

Voorbeeld 1

Voorbeeld 2

"Geval 2" bij kwantielen

X-waarden met frequentie nul

Tchebychev: niet vergeten afronden

Transformaties die sortering beinvloeden

Bivariate freqentiefuncties via ZRM

Somvariabelen van standaarddeviaties

Somvariabelen van correlaties

Verschil tussen disjunct en statistisch onafhankelijk

Ongelijkheden

Voorbeeld

Eerste indruk

Meerkeuzevragen

Q1

Q2

Q3

Q4

Q5

Q6

Q7

Q8

Q9

Q10

Q11

Q12

Q13

Q14

Q15

Open vragen

Q16

Q17

Q18

Q19

Q20

Statistische modellen

Bernoulli

Binomiaal

Geometrisch

Poisson

Exponentieel

Uniform

Normaal

Statistische tabellen

Standaard normaalverdeling

De normale manier ( $\overline l = \overline{ax+b}$ )

De shortcut ( $\overline l = a \overline x + b$ )