Eksploracyjna analiza danych
Kontynuując - zgodnie z obietnicą - temat podjęty w poprzedniej notce, czas przyglądnąć się dokładniej każdemu z zadań eksploracji danych (ang. "data mining task"). Tematem tego artykułu jest Exploratory Data Analysis (EDA) - eksploracyjna analiza danych.
Celem eksploracyjnej analizy danych, jak sama nazwa wskazuje, jest eksploracja - przeszukiwanie danych, bez sprecyzowanego przedmiotu tych poszukiwań.
Jak można przeczytać w Elektronicznym Podręczniku Statystyki: w EDA wykorzystuje się przede wszystkim techniki wizualizacji danych, które stanowią bardzo efektywne narzędzie identyfikacji występujących relacji, trendów i błędów systematycznych. Inne graficzne techniki analizy eksploracyjnej obejmują dopasowywanie i wykreślanie funkcji, wygładzanie danych , nakładanie i scalanie wielu obrazów, kategoryzację danych, dzielenie lub scalanie podzbiorów danych na wykresach, agregowanie danych na wykresach, identyfikację i zaznaczanie podzbiorów danych, spełniających określone warunki, wykresy obrazkowe.
Eksploracyjna analiza danych przynosi najlepsze efekty przy przetwarzaniu stosunkowo niewielkich zbiorów danych, o niewielu wymiarach. W przypadku większej ilości zmiennych (zwiększonej liczby wymiarów) wizualizacja danych jest mocno utrudniona. Wówczas z pomocą przychodzą techniki pozwalające na redukcję ilości cech takie jak np. analiza głównych składowych. Niemniej należy pamiętać o ograniczeniach jakie takie techniki "spłaszczania" niosą za sobą. Siłą rzeczy część informacji jest tracona.
Kolejnym wyzwaniem jest zilustrowanie w sposób czytelny wysokiej liczby obiektów analizowanego zbioru danych. Ten problem usiłuje się rozwiązać poprzez odpowiedni dobór skali i poziomu szczegółowości analizowanych danych.
EDA często bywa traktowana nie jako jeden z rodzajów zadań eksploracji danych, lecz jako działanie całkowite różne od data mining: "istotna różnica pomiędzy zgłębianiem danych a tradycyjną eksploracyjną analizą danych, odnośnie sposobu podejścia i przeznaczenia, polega na tym, że zgłębianie danych jest bardziej ukierunkowane na praktyczne zastosowania niż na istotę branego pod uwagę zjawiska." Niemniej, jak to zostało wcześniej zaznaczone, przyjęty został podział zadań eksploracji danych zaproponowany przez Hand'a.
Bibliografia:
- StatSoft (2006). Elektroniczny Podręcznik Statystyki PL, Kraków, WEB: http://www.statsoft.pl/textbook/stathome.html.
D. J. Hand, H. Mannila, P. Smyth. Principles of Data Mining (Adaptive Computation and Machine Learning). The MIT Press, 2001.
