Współczynnik korelacji Pearsona
Z Wikipedii
Współczynnik korelacji liniowej Pearsona określa poziom zależności liniowej między zmiennymi losowymi. Niech x i y będą zmiennymi losowymi o ciągłych rozkładach. xi,yi oznaczają wartości prób losowych tych zmiennych (i = 1,2,...,n), natomiast - wartości średnie z tych prób, tj. .
Wówczas współczynnik korelacji liniowej definiuje się następująco:
Innymi słowy współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych:
Współczynnik korelacji można określić również dla zmiennych losowych o dyskretnych rozkładach. Trzymając się poprzedniej notacji dla średnich wartości zmiennych, dostajemy postać
Wartość współczynnika korelacji mieści się w przedziale domkniętym <-1; 1>. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi. rxy = 0 oznacza brak liniowej zależności między cechami, rxy = 1 oznacza dokładną dodatnią liniową zależność między cechami, natomiast rxy = − 1 oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x rośnie, to y maleje i na odwrót.
Współczynnik korelacji liniowej można traktować jako znormalizowaną kowariancję. Korelacja przyjmuje zawsze wartości w zakresie [ − 1,1], co pozwala uniezależnić analizę od dziedziny badanych zmiennych.
Ograniczenia stosowalności:
- podatny na obserwacje skrajne.
- interpretacja jest oczywista tylko dla wielowymiarowego rozkładu normalnego (jest wtedy estymatorem elementu macierzy współczynników tego rozkładu).