SEMMA
19 marzec 2008 |
Wojciech Wilusz
| Artykuł
SEMMA według firmy SAS, gdzie została opracowana, nie jest metodologią eksploracji danych, ale raczej formą logicznej organizacji narzędzi programu SAS Enterprise Miner dla przeprowadzenia podstawowych zadań eksploracji danych.
Tak na internetowych stronach firmy SAS, jak i w różnych publikacjach książkowych można znaleźć rozwinięcie tego skrótu i omówienie założeń tego podejścia:
- Sample - Nazwa "Próbkuj", wskazywałaby na konieczność - podobnie jak ma to miejsce w statystyce opisowej - wyboru reprezentatywnej próby spośród dostępnych danych. Jest to jednak rozwiązanie opcjonalne, które - kosztem utraty pewnej części informacji - pozwala na zmniejszenie ilości danych, co z kolei pozwala na szybsze ich przetwarzanie. Można jednak zdecydować się na działanie na całym zbiorze danych. W tym kroku należy przede wszystkim zdecydowac, które dane zostaną potraktowane jako dane wejsciowe. Ponadto zaleca się ich podział na dane:
- Treningowe - wykorzystywane podczas tworzenia modeli.
- Walidujące - służą ocenie poprawności działania utworzonych modeli oraz zapobiegaja ich "przeuczeniu".
- Testowe - mają na celu ewaluację jakości modelu oraz sprawdzenie jego zdolności do uogólniania.
- Explore - krok określony mianem "eksploracji" służy odkryciu związków występujących w danych. Zaleca się zilustrowanie danych liczbowych dla wykrycia ewidentnych prawidłowosci, a także wykorzystanie metod statystycznych jak: analiza czynnikowa, analiza korespondencji i klasteryzacja danych.
- Modify - "modyfikacja", która następuje w tym etapie polega na przygotowaniu i doskonaleniu danych wejściowych. Przygotowanie może obejmować zidentyfikowanie obserwacji odstających, usunięcie/uzupełnienie brakujących wartości, czy standaryzację/normalizację danych. Doskonalenie to przede wszystkim tworzenie nowych zmiennych oraz selekcja lub transformacja już istniejących. Użyteczne może okazać się także pogrupowanie danych w odpowiednie struktury hierarchiczne.
- Model - na tym etapie następuje dopasowanie modelu predykcyjnego - modelu, który w sposób stabilny generuje możliwie najlepsze prognozy. Model jest wybierany m.in. spośród sieci neuronowych, drzew decyzji, modeli statystycznych (np. opartych o regresję logistyczna), czy modeli zdefiniowanych przez użytkownika.
- Assess - ostatni etap to ocena całego procesu eksploracji danych: otrzymanych wyników, ich użyteczności i wiarygodności.
Wyniki uzyskane w każdym z pięciu kroków powinny stanowić punkt wyjścia dla kolejnych iteracji procesu eksploracji danych (zazwyczaj od etapu "Explore") i tym samym ciągłego doskonalenia ostatecznych rezultatów - aż do osiągnięcia ich satysfakcjonującego poziomu.
Bibliografia:
- http://www.sas.com/technologies/analytics/datamining/miner/semma.html
