Web - Amazon

We provide Linux to the World


We support WINRAR [What is this] - [Download .exe file(s) for Windows]

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
SITEMAP
Audiobooks by Valerio Di Stefano: Single Download - Complete Download [TAR] [WIM] [ZIP] [RAR] - Alphabetical Download  [TAR] [WIM] [ZIP] [RAR] - Download Instructions

Make a donation: IBAN: IT36M0708677020000000008016 - BIC/SWIFT:  ICRAITRRU60 - VALERIO DI STEFANO or
Privacy Policy Cookie Policy Terms and Conditions
Analiza głównych składowych - Wikipedia, wolna encyklopedia

Analiza głównych składowych

Z Wikipedii

Analiza głównych składowych (ang. Principal Component Analysis, PCA) – eksploracyjna technika (metoda statystyczna) umożliwiająca wnioskowanie o obiektach opisanych wieloma zmiennymi. Metoda służy do badania związków zachodzących pomiędzy dwoma wielowymiarowymi zestawami zmiennych. Metoda ta dopasowuje do chmury punktów w przestrzeni wektorowej tworzonej przez N przypadków opisywanych każdy przez K zmiennych (obserwacje opisywane przez oryginalne zmienne) nowe wzajemnie prostopadłe osie. Wartość na osiach określa tzw. ładunek wygenerowanych nowych czynników (składowych głównych). Czynniki generowane są kolejno, tak aby wyjaśnić jak najwięcej zmienności obserwowanych w zbiorze danych oraz tak aby być jak najmniej skorelowane z innymi wygenerowanymi czynnikami (metoda "poszukuje" diagonalnej macierzy korelacji dla czynników). Ponieważ wygenerowanych czynników jest najczęściej mniej niż oryginalnych zmiennych (co najwyżej tyle samo), metoda ta umożliwia redukcję liczby zmiennych opisujących obserwacje, ułatwiając np. określenie podobieństw między przypadkami. Niedogodnością używania tej metody są problemy z interpretacją ładunków czynnikowych (określających położenie punktów w nowo wygenerowanym układzie współrzędnych) przy większej liczbie pierwotnych zmiennych. Czynniki tworzone tą metodą są liniową kombinacją tych zmiennych pierwotnych, które są skorelowanych najmocniej z powstałym czynnikiem. Między innymi stąd im więcej zmiennych pierwotnych, tym trudniejsza interpretacja "ładunków czynnikowych".

Metoda PCA jest używana np. do kompresji sygnałów.

[edytuj] Algorytm

  1. umieszczenie danych wejściowych w macierzy, gdzie kolumny odpowiadają zmiennym (k zmiennych, k kolumn)
  2. wyznaczenie macierzy kowariancji lub macierzy korelacji między zmiennymi (o wymiarach k*k)
  3. wyznaczenie wartości i wektorów własnych tej macierzy
  4. uszeregowanie wartości własnych od największej do najmniejszej
  5. przestawienie kolumn w macierzy wektorów własnych, tak żeby pierwsza kolumna zawierała wektor własny odpowiadający największej wartości własnej, druga kolumna wektor odpowiadający drugiej co do wielkości wartości własnej itd.
  6. wybór liczby czynników (których odpowiednikami są wektory własne) - dokonuje się na podstawie udziału sumy m pierwszych wartości własnych (a więc m czynników branych pod uwagę) w sumie wszystkich wartości własnych
  7. stworzenie macierzy gamma polegającej na pozostawieniu m pierwszych kolumn w macierzy wektorów własnych i skreśleniu pozostałych kolumn - dostajemy więc macierz o wymiarach k*m
  8. pomnożenie macierzy danych wejśiowych (o wymiarach n * k) przez macierz gamma (o wymiarach k * m) - dostajemy macierz z wartościami czynnikowymi poszczególnych przypadków (o wymiarach n * m)

[edytuj] Przykład

Przykładowo, jeśli mamy zbiór danych zawierający 100 przypadków (100 osób) charakteryzowanych przez 5 zmiennych (np. wzrost, waga, wiek, dochód, powierzchnia mieszkania) to można przypuszczać, że zmienne "wzrost" i "waga" będą ze sobą silnie dodatnio skorelowane (no bo im kto wyższy, tym więcej waży). Po to żeby uzyskać większą przejrzystość danych lub uniknąć powielania się danych (np. przy segmentacji klientów) czasami warto jest zastąpić dwie zmienne jedną zmienną - tak zwaną składową, którą można nazwać na przykład "wielkość". Podobnie skorelowane będą ze sobą zmienne "dochód" i "powierzchnia mieszkania", które być może można zastąpić czynnikiem "zamożność".

Należy stworzyć macierz korelacji (5*5) i wyznaczyć jej wartości własne oraz wektory własne. Szeregujemy wartości własne od największej do najmniejszej i jeżeli np. 3 pierwsze wartości własne stanowią odpowiednio duży udział w sumie wszystkich pięciu wartości własnych (np. powyżej 70%) to oznacza to, że możemy rozpatrywać model 3-czynnikowy. Tworzymy więc macierz gamma (o wymiarach 5*3 - bierzemy 3 "kolumny-wektory własne" odpowiadające odpowiednio uszeregowanym wartościom własnym) i mnożymy macierz danych wejściowych (100*5) przez macierz gamma (5*3) dostając macierz 100*3. Otrzymana macierz zawiera wartości poszczególnych składowych dla poszczególnych przypadków.

Teraz należy zbadać korelacje poszczególnych składowych (mamy ich 3) ze zmiennymi wejściowymi (mieliśmy ich 5). Załóżmy, że pierwsza składowa jest mocno skorelowana z "wagę" i "wzrostem", druga z "wiekiem", a trzecia z "dochodem" i "powierzchnią mieszkania". Przeanalizujmy zatem pierwszy wiersz otrzymanej macierzy:

Jeżeli element (1,1) tej macierzy ma dużą wartość, to oznacza to, że dana osoba jest duża (ma prawdopodobnie duży wzrost i dużą wagę). Jeśli element (1,2) jest duży, oznacza to, że dana osoba jest stara. Jeśli element (1,3) ma dużą wartość, to znaczy że osoba ta jest zamożna (czyli najprawdopobniej ma duży dochód i duże mieszkanie).

[edytuj] Zobacz też

Our "Network":

Project Gutenberg
https://gutenberg.classicistranieri.com

Encyclopaedia Britannica 1911
https://encyclopaediabritannica.classicistranieri.com

Librivox Audiobooks
https://librivox.classicistranieri.com

Linux Distributions
https://old.classicistranieri.com

Magnatune (MP3 Music)
https://magnatune.classicistranieri.com

Static Wikipedia (June 2008)
https://wikipedia.classicistranieri.com

Static Wikipedia (March 2008)
https://wikipedia2007.classicistranieri.com/mar2008/

Static Wikipedia (2007)
https://wikipedia2007.classicistranieri.com

Static Wikipedia (2006)
https://wikipedia2006.classicistranieri.com

Liber Liber
https://liberliber.classicistranieri.com

ZIM Files for Kiwix
https://zim.classicistranieri.com


Other Websites:

Bach - Goldberg Variations
https://www.goldbergvariations.org

Lazarillo de Tormes
https://www.lazarillodetormes.org

Madame Bovary
https://www.madamebovary.org

Il Fu Mattia Pascal
https://www.mattiapascal.it

The Voice in the Desert
https://www.thevoiceinthedesert.org

Confessione d'un amore fascista
https://www.amorefascista.it

Malinverno
https://www.malinverno.org

Debito formativo
https://www.debitoformativo.it

Adina Spire
https://www.adinaspire.com