Zależność zmiennych losowych
Z Wikipedii
Zależność statystyczna zmiennych losowych (korelacja) – związek pomiędzy dwiema zmiennymi losowymi X i Y.
Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.
Ścisłe definicje podane są poniżej.
Spis treści |
[edytuj] Zmienne rzeczywiste
[edytuj] Zależność statystyczna
Dla zmiennych losowych o wartościach rzeczywistych, formalnie zapisywana jest wzorem:
lub zapisując w postaci dystrybuant:
[edytuj] Niezależność statystyczna
Przeciwieństwem jest niezależność statystyczna. Zmienne są niezależne, gdy
Powyższy wzór jest uogólniany na dowolną liczbę zmiennych. Zmienne są niezależne, jeśli
lub (zapis w formie dystrybuant)
W szczególności niezależność każdej dla pary zmiennych Xi,Xjnie oznacza koniecznie niezależności wszystkich zmiennych .
[edytuj] Szczególne przypadki
[edytuj] Zależność monotoniczna
Dodatnia zależność monotoniczna zachodzi, gdy zwiększenie wartości jednej ze zmiennych oznacza zwiększenie wartości oczekiwanej drugiej zmiennej. Analogicznie ujemna zależność monotoniczna zachodzi, gdy zwiększenie jednej ze zmiennych oznacza zmniejszenie drugiej.
Ściśle zależność monotoniczna (a konkretniej jej odmiana zwana Quadrant Dependence) została określona przez Lehmana (1966). Dodatnia zależność monotoniczna:
Ujemna zależność monotoniczna:
Istnieją też inne definicje zależności monotonicznej. Lehman podał także dwie silniejsze definicje, a Kowalczyk i Pleszczyńska (1977) także definicję słabszą.
Powyższe definicje obejmują skrajny przypadek zależności zmiennych (). W praktyce zależność nie musi być pełna. Miarą stopnia zależności monotonicznej są współczynniki korelacji rangowej.
[edytuj] Zależność liniowa
Szczególnym przypadkiem zależności monotonicznej jest zależność liniowa. W przypadku skrajnym zachodzi, gdy jedna ze zmiennych jest liniowo zależna od drugiej zmiennej.
W praktyce tu również zależność nie musi być pełna. Miarą stopnia zależności liniowej jest np. współczynnik korelacji Pearsona.
[edytuj] Dowolne zmienne losowe
Zmienne losowe niezależne – dowolna rodzina zmiennych losowych , gdzie (Ω to wspólna przestrzeń probabilistyczna z miarą μ, na której zmienne są opisane, a At to przestrzeń wartości zmiennej Xt), jest rodziną zmiennych losowych niezależnych, wtedy i tylko wtedy gdy dla każdego skończonego podukładu tych zmiennych oraz dowolnych zbiorów mierzalnych zachodzi
Rzeczywiste zmienne losowe niezależne – dwie, kilka, lub dowolna rodzina zmiennych losowych , gdzie T jest zbiorem indeksów, jest rodziną rzeczywistych zmiennych losowych niezależnych wtedy i tylko wtedy, gdy dla każdego skończonego podukładu tych zmiennych oraz dowolnych liczb rzeczywistych xi, , zachodzi:
gdzie oznacza dystrybuantę rozkładu łącznego zmiennych w punkcie , natomiast oznacza dystrybuantę rozkładu zmiennej w punkcie xi.
Rodzinę zmiennych losowych nazywamy rodziną zmiennych zależnych, jeżeli nie jest to rodzina zmiennych niezależnych.
Alternatywnym warunkiem niezależności zmiennych jest warunek:
Dla zmiennych ciągłych
gdzie funkcja jest funkcją gęstości rozkładu łącznego wektora losowego t natomiast funkcje są gęstościami rozkładów brzegowych.
Dla zmiennych dyskretnych
gdzie jest funkcją prawdopodobieństwa rozkładu łączengo natomiast funkcje pi są funkcjami prawdopodobieństwa brzegowego kolejnych zmiennych.
[edytuj] Popularne błędy
[edytuj] Zależność a współczynnik korelacji
Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne X i Y mogą być związane zależnością:
Jest to przykład ścisłej zależności. Jednak zarówno klasyczna korelacja Pearsona, jak i rangowa dadzą wartość zero (dla próbki - bliską zeru), gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.
[edytuj] Zależność a związek przyczynowo-skutkowy
Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk syreny lokomotywy jest niezwykle silnie skorelowany z odjazdem pociągu ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy jedynie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. W związku z tym jeśli czynnik A (np. wykształcenie) i czynnik B (np. zarobki) korelują ze sobą, to powinno się tworzyć przynajmniej kilka hipotez na temat ewentualnego związku przyczynowego między nimi:
- Czynnik A wpływa na czynnik B. Tu: wykryto związek między zarobkami a wykształceniem, bo wyższe wykształcenie powoduje że dana osoba więcej zarabia.
- Czynnik B wpływa na czynnik A. Tu: ludzie zamożniejsi mają lepszy dostęp do wykształcenia i dlatego istnieje związek między zarobkami a wykształceniem.
- Jednocześnie A wpływa na B i B na A
- Istnieje czynnik C niezidentyfikowany w badaniu, który koreluje z A i z B. Tu: miejsce zamieszkania (lub ambicje) mogą być czynnikiem, który z jednej strony powoduje, że ktoś więcej zarabia, a z drugiej, że ma wyższe wykształcenie.
- Korelacja nie ujawnia żadnego związku przyczynowo - skutkowego.
Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.
W innej wersji mówi się o korelacji liczby bocianów z liczbą dzieci na tym samym terenie wiejskim w skali wielu lat. Okazuje się, że liczba bocianów jest skorelowana dodatnio z ciepłym latem, a przy dobrej pogodzie wzrastać ma też liczba par kochających się na łonie natury.
Prawdopodobnie nie są to wyniki poważnych badań, lecz tylko legenda, niemniej jest ona dobrą ilustracją, jak może powstawać zależność, nie będąca związkiem przyczynowo-skutkowym[1].
Podobnie, można by się dopatrzyć silnej dodatniej korelacji między wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to jedynie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.
[edytuj] Obserwacje odstające
Innym częstym błędem jest niesprawdzanie, czy w próbie nie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona.
Przypisy
[edytuj] Bibliografia
- Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa. Warszawa: Script, 2004. ISBN 83-89716-02-X.
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1.
- Lehmann, E. L.. Some concepts of dependence. Ann. Math. Statist.. 37 1137-53. 1966.
- Kowalczyk, T. i Pleszczyńska, E.. Monotonic Dependence Functions of Bivariate Distributions. The Annals of Statistics. Vol. 5, No.6, 1221-1227. 1977. http://www.jstor.org/pss/2958654