Metoda Doyle'a
Z Wikipedii
Ten artykuł wymaga dopracowania zgodnie z zaleceniami edycyjnymi. Po naprawieniu wszystkich błędów można usunąć tę wiadomość. |
Metoda Doyl'a to metoda wyszukiwania informacji w bazie danych.
[edytuj] Opis słowny algorytmu
- Dokonujemy wstępnego podziału dokumentów na m grup.
- Dla każdej z grup wypisujemy zbiór obiektów ją tworzących - Sj, oraz zbiór deskryptorów występujących w opisach dokumentów tejże grupy - Cj; gdzie j oznacza numer grupy. Następnie dla każdej z grup zliczamy ilość deskryptorów opisujących jej elementy; zapamiętujemy największą wartość i inkrementujemy ją - otrzymamy wartość bazową – b.
- Dla każdego deskryptora, każdej z grup, dokonujemy zliczenia liczby wystąpień danego deskryptora w opisach dokumentów tejże grupy. Tworzymy w ten sposób wektor częstości i oznaczamy (dla j-tej grupy) przez Fj.
- W ramach grupy przydzielamy każdemu z deskryptorów odpowiednią rangę. Rangę 1 otrzymuje deskryptor o największej częstości wystąpień, rangę 2 kolejny, itd. W przypadku takiej samej częstości wystąpień dla dwu, lub więcej, deskryptorów przydzielamy im tą samą rangę. Otrzymujemy wektor rangi opisujący grupę i oznaczamy przez Rj.
- Kolejnym krokiem jest obliczenie wektora profilu grupy - Pj. Poszczególne współrzędne wektora otrzymamy poprzez wyliczenie różnicy pomiędzy wartością bazową – b a rangą, dla każdego z deskryptorów.
- Obliczamy wartość funkcji punktującej – g(di,Pj) dla każdego dokumentu i każdego profilu. Wartość funkcji punktującej jest sumą wartości współrzędnych wektora profilu, odpowiadającym deskryptorom opisującym system, dla tegoż dokumentu w danej grupie. Obliczamy wartość funkcji punktującej dla każdego dokumentu z każdym profilem.
- Dla każdego dokumentu zapamiętujemy największą wartość funkcji g(di,Pj), oraz numer profilu, z którym ją uzyskano.
- Dla każdej z grup dokonujemy obliczenia współczynnika Hj, gdzie Hj = max(g(di,Pj)).
- Obliczamy wartość progową funkcji punktującej dla każdej z grup:
- gdzie T jest założoną wartością progowa, a jest nazywana mocą związania dokumentów w grupę, 0<<1. Jednym ze sposobów obliczenia wartości T polega na obliczeniu jej z wzoru: T = max[max(g(di,Pj))+min(g(di,Pj))] div 2.
- Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’ składają się takie dokumenty, których wartość funkcji punktującej z profilem Pj jest większa od wyliczonej uprzednio wartości Tj, co możemy zapisać wzorem:
- W ten sposób oprócz zakładanych wcześniej m grup otrzymaliśmy jeszcze jedną grupę, na którą składają się dokumenty, które w procesie grupowania nie znalazły się w żadnej z utworzonych grup. Grupę tą nazywamy grupą dokumentów swobodnych.
- Algorytm należy powtarzać do momentu, w którym skład utworzonych grup nie ulegnie zmianie.
Zobacz też: