Nadmierne dopasowanie

Z Wikipedii

Zaszumione (z grubsza liniowe) dane można dopasować zarówno do funkcji liniowej jak i wielomianu. Chociaż wielomian przechodzi przez każdy z punktów reprezentujących obserwacje, a prosta tylko przez kilka, jest ona zapewne lepszym przybliżeniem, gdyż wielomian przyjmuje dziwne wartości na końcach przedziału.

Nadmierne dopasowanie podczas tzw. uczenia nadzorowanego (np. w sieciach neuronowych). Błąd na zbiorze uczącym jest zaznaczony kolorem niebieskim, błąd na zbiorze testowym kolorem czerwonym. Jeśli błąd na zbiorze testowym rośnie, podczas gdy błąd na zbiorze uczącym maleje, to zwykle jest to związane ze zjawiskiem przeuczenia.

Nadmierne dopasowanie, przeuczenie, przetrenowanie, overfitting – różne, stosowane w statystyce nazwy tego samego zjawiska, zachodzącego gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby na podstawie której był konstruowany. Absurdalne i fałszywe modele mogą świetnie pasować do danych uczących gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosujemy je do danych, z którymi się nie zetknęły podczas uczenia.

Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady brzytwy Ockhama (niemnożenia bytów ponad potrzebę). Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność generalizacji i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych.

Idea nadmiernego dopasowania jest ważna także w uczeniu maszynowym. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na giełdzie w długim horyzoncie czasowym, badania genetyczne, czy problemy makroekonomiczne generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa trenowana na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks.

Zwykle algorytm uczący jest trenowany na pewnym zbiorze przypadków (zbiór uczący), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może "wymyśleć" prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy.

Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. zbiorów testowych, walidacji krzyżowej, bootstrapu), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy istotności statystycznej, które jednak na ogół mają pewne założenia odnośnie rozkładu danych.

W psychiatrii odpowiednikiem nadmiernego dopasowania mogą być urojenia paranoiczne: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. teorie spiskowe), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami zespołu paranoicznego.

[edytuj] Bibliografia

(en) Tetko, I.V.; Livingstone, D.J.; Luik, A.I. Neural network studies. 1. Comparison of Overfitting and Overtraining, J. Chem. Inf. Comput. Sci., 1995, 35, 826-833