Zależność zmiennych losowych

Z Wikipedii

Ten artykuł dotyczy relacji między zmiennymi losowymi.. Zobacz też: zmienna zależna i zmienne niezależne w analizie regresji.

Wykresy rozrzutu pokazujące przykładowe zależności między zmiennymi wraz z odpowiadającymi im wartościami współczynnika korelacji

Zależność statystyczna zmiennych losowych (korelacja) – związek pomiędzy dwiema zmiennymi losowymi $X$ i $Y$ .

Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.

Ścisłe definicje podane są poniżej.

[edytuj] Zmienne rzeczywiste

[edytuj] Zależność statystyczna

Dla zmiennych losowych o wartościach rzeczywistych, formalnie zapisywana jest wzorem:

$\bigvee_{a,b} P(X\le a)P(Y\le b) \ne P(X\le a \and Y\le b)$

lub zapisując w postaci dystrybuant:

$\bigvee_{a,b} F_X(a)F_Y(b) \ne F_{XY}(a,b)$

[edytuj] Niezależność statystyczna

Przeciwieństwem jest niezależność statystyczna. Zmienne są niezależne, gdy

$\bigwedge_{a,b} P(X\le a)P(Y\le b)=P(X\le a \and Y\le b)$

Powyższy wzór jest uogólniany na dowolną liczbę zmiennych. Zmienne $X_1,X_2,\dots X_n$ są niezależne, jeśli

$\bigwedge_{v_1,v_2,\dots v_n} P(X_1\le v_1)\cdot P(X_2\le v_2)\cdot \dots \cdot P(X_n\le v_n)=P(X_1\le v_1 \and X_2\le v_2 \and \dots \and X_n\le v_n)$

lub (zapis w formie dystrybuant)

$\bigwedge_{v_1,v_2,\dots v_n} F_1(v_1)\cdot F_2(v_2)\cdot \dots \cdot F_n(v_n)=F(v_1,v_2,\dots ,v_n)$

W szczególności niezależność każdej dla pary zmiennych $X i, X j$ nie oznacza koniecznie niezależności wszystkich zmiennych $X_1,X_2,\dots X_n$ .

[edytuj] Szczególne przypadki

[edytuj] Zależność monotoniczna

Dodatnia zależność monotoniczna zachodzi, gdy zwiększenie wartości jednej ze zmiennych oznacza zwiększenie wartości oczekiwanej drugiej zmiennej. Analogicznie ujemna zależność monotoniczna zachodzi, gdy zwiększenie jednej ze zmiennych oznacza zmniejszenie drugiej.

Ściśle zależność monotoniczna (a konkretniej jej odmiana zwana Quadrant Dependence) została określona przez Lehmana (1966). Dodatnia zależność monotoniczna:

$\bigwedge_{(x,y)\in\mathbb{R}^2} P(X<x | Y>y)\leqslant P(X<x)$

Ujemna zależność monotoniczna:

$\bigwedge_{(x,y)\in\mathbb{R}^2} P(X<x | Y>y)\geqslant P(X<x)$

Istnieją też inne definicje zależności monotonicznej. Lehman podał także dwie silniejsze definicje, a Kowalczyk i Pleszczyńska (1977) także definicję słabszą.

Powyższe definicje obejmują skrajny przypadek zależności zmiennych ( $\rho=\pm 1$ ). W praktyce zależność nie musi być pełna. Miarą stopnia zależności monotonicznej są współczynniki korelacji rangowej.

[edytuj] Zależność liniowa

Szczególnym przypadkiem zależności monotonicznej jest zależność liniowa. W przypadku skrajnym zachodzi, gdy jedna ze zmiennych jest liniowo zależna od drugiej zmiennej.

W praktyce tu również zależność nie musi być pełna. Miarą stopnia zależności liniowej jest np. współczynnik korelacji Pearsona.

[edytuj] Dowolne zmienne losowe

Zmienne losowe niezależne – dowolna rodzina zmiennych losowych $\{X_t\}_{t\in T}$ , gdzie $X_t(\omega) : (\Omega,F,\mu) \to A_t$ ( $Ω$ to wspólna przestrzeń probabilistyczna z miarą $μ$ , na której zmienne są opisane, a $A t$ to przestrzeń wartości zmiennej $X t$ ), jest rodziną zmiennych losowych niezależnych, wtedy i tylko wtedy gdy dla każdego skończonego podukładu tych zmiennych $X_{t_1}, X_{t_2}, \ldots, X_{t_n}$ oraz dowolnych zbiorów mierzalnych $B_1 \subset A_{t_1}, B_2 \subset A_{t_2}, \ldots, B_n \subset A_{t_n}$ zachodzi

$P(X_{t_1} \in B_1, X_{t_2} \in B_2, \ldots, X_{t_n} \in B_n) = P(X_{t_1} \in B_1) \cdot P(X_{t_2} \in B_2) \cdot \ldots \cdot P(X_{t_n} \in B_n)$

Rzeczywiste zmienne losowe niezależne – dwie, kilka, lub dowolna rodzina zmiennych losowych $\{X_t\}_{t\in T}$ , gdzie $T$ jest zbiorem indeksów, jest rodziną rzeczywistych zmiennych losowych niezależnych wtedy i tylko wtedy, gdy dla każdego skończonego podukładu tych zmiennych $X_{t_1},X_{t_2},\ldots,X_{t_n}$ oraz dowolnych liczb rzeczywistych $x i$ , $i=1,2,\ldots,n$ , zachodzi:

$F_{t_1,t_2,\ldots,t_n}(x_1,x_2,\ldots,x_n)=\Pi_{i=1}^n F_{t_i}(x_i)$

gdzie $F_{t_1,t_2,\ldots,t_n}(x_1,x_2,\ldots,x_n)$ oznacza dystrybuantę rozkładu łącznego zmiennych $X_{t_1},X_{t_2},\ldots,X_{t_n}$ w punkcie $(x_1,x_2,\ldots,x_n)$ , natomiast $F_{t_i}(x_i)$ oznacza dystrybuantę rozkładu zmiennej $X_{t_i}$ w punkcie $x i$ .

Rodzinę zmiennych losowych nazywamy rodziną zmiennych zależnych, jeżeli nie jest to rodzina zmiennych niezależnych.

Alternatywnym warunkiem niezależności zmiennych jest warunek:

Dla zmiennych ciągłych

$f_{t_1,t_2,\ldots,t_n}(x_1,x_2,\ldots,x_n)=\Pi_{i=1}^n f_{t_i}(x_i)$

gdzie funkcja $f_{t_1,t_2,\ldots,t_n}(x_1,x_2,\ldots,x_n)$ jest funkcją gęstości rozkładu łącznego wektora losowego $t$ natomiast funkcje $f_{t_1}(x_1)$ są gęstościami rozkładów brzegowych.

Dla zmiennych dyskretnych

$p_{t_1,t_2,\ldots,t_n}=\Sigma_{i=1}^n p_{i}$

gdzie $p_{t_1,t_2,\ldots,t_n}$ jest funkcją prawdopodobieństwa rozkładu łączengo natomiast funkcje $p i$ są funkcjami prawdopodobieństwa brzegowego kolejnych zmiennych.

[edytuj] Popularne błędy

[edytuj] Zależność a współczynnik korelacji

Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne $X$ i $Y$ mogą być związane zależnością:

$Y=X^2\and -1\le X\le 1$

Jest to przykład ścisłej zależności. Jednak zarówno klasyczna korelacja Pearsona, jak i rangowa dadzą wartość zero (dla próbki - bliską zeru), gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.

[edytuj] Zależność a związek przyczynowo-skutkowy

Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk syreny lokomotywy jest niezwykle silnie skorelowany z odjazdem pociągu ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy jedynie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. W związku z tym jeśli czynnik A (np. wykształcenie) i czynnik B (np. zarobki) korelują ze sobą, to powinno się tworzyć przynajmniej kilka hipotez na temat ewentualnego związku przyczynowego między nimi:

Czynnik A wpływa na czynnik B. Tu: wykryto związek między zarobkami a wykształceniem, bo wyższe wykształcenie powoduje że dana osoba więcej zarabia.
Czynnik B wpływa na czynnik A. Tu: ludzie zamożniejsi mają lepszy dostęp do wykształcenia i dlatego istnieje związek między zarobkami a wykształceniem.
Jednocześnie A wpływa na B i B na A
Istnieje czynnik C niezidentyfikowany w badaniu, który koreluje z A i z B. Tu: miejsce zamieszkania (lub ambicje) mogą być czynnikiem, który z jednej strony powoduje, że ktoś więcej zarabia, a z drugiej, że ma wyższe wykształcenie.
Korelacja nie ujawnia żadnego związku przyczynowo - skutkowego.

Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km² w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.

W innej wersji mówi się o korelacji liczby bocianów z liczbą dzieci na tym samym terenie wiejskim w skali wielu lat. Okazuje się, że liczba bocianów jest skorelowana dodatnio z ciepłym latem, a przy dobrej pogodzie wzrastać ma też liczba par kochających się na łonie natury.

Prawdopodobnie nie są to wyniki poważnych badań, lecz tylko legenda, niemniej jest ona dobrą ilustracją, jak może powstawać zależność, nie będąca związkiem przyczynowo-skutkowym^[1].

Podobnie, można by się dopatrzyć silnej dodatniej korelacji między wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to jedynie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.

[edytuj] Obserwacje odstające

Innym częstym błędem jest niesprawdzanie, czy w próbie nie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona.

Przypisy

↑ [1], [2]

[edytuj] Bibliografia

Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa. Warszawa: Script, 2004. ISBN 83-89716-02-X.
Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1.
Lehmann, E. L.. Some concepts of dependence. Ann. Math. Statist.. 37 1137-53. 1966.
Kowalczyk, T. i Pleszczyńska, E.. Monotonic Dependence Functions of Bivariate Distributions. The Annals of Statistics. Vol. 5, No.6, 1221-1227. 1977. http://www.jstor.org/pss/2958654

[edytuj] Zobacz też

niezależność zdarzeń

Kategoria: Zmienne losowe

We provide Linux to the World