Zadania data mining

2 styczeń 2008 | Wojciech Wilusz | Artykuł

Wszelkie dywagacje związane bezpośrednio z pojęciem "eksploracji danych" siłą rzeczy pozostają na wysokim poziomie abstrakcji. Jest to bowiem termin równie ogólny co "matematyka", czy "marketing". Stąd potrzeba pewnej systematyzacji - uporządkowania materii data mining. Pierwszym poziomem takich "porządków" może być podział dziedziny eksploracji danych na "zadania".

Chodzi o pojęcie znane jako "data mining tasks"; wydaje się, że najlepszym tłumaczeniem jest słowo "zadania", choć bardziej na miejscu wydaje się być sformułowanie "kategorie zadań". I tak poniżej przytoczony został przykładowy podział na takie właśnie kategorie: 

  • Eksploracyjna analiza danych
  • Modelowanie opisowe
  • Modelowanie predykcyjne: klasyfikacja i regresja
  • Wykrywanie wzorców i reguł
  • Wyszukiwanie według zawartości
Oczywiście podana klasyfikacja nie jest jedyną słuszną. Może ona jednak stanowić punkt wyjścia jako zaproponowana przez osobę powszechnie uznaną za autorytet w dziedzinie - Davida J. Handa. Pozycja książkowa, do której odwołuję się w bibliografii, doczekała się wydania polskiego pod swojsko brzmiącym tytułem "Eksploracja danych" (wydaw. WNT, Warszawa 2005). Niemniej tłumaczenie jest na tyle fatalne, że zdecydowanie lepiej jest trzymać się angielskiego pierwowzoru.

Wracając do tematu - należy zauważyć, że istnieje pewna część wspólna dla wszystkich opisanych powyżej kategorii zadań: zawsze konieczne jest wykorzystanie pewnej metryki - miary podobieństwa - pomiędzy dwoma wektorami cech; podobnie - dla oceny jakości modelu czy dopasowania wzorca do danych - w każdym z wymienionych zadań konieczne jest wykorzystanie funkcji pozwalającej ocenić jakość danego rozwiązania. Oczywiście te będą przybierały różną postać w zależności od rozwiązywanego problemu.

W najbliższej przyszłości postaram się bardziej szczegółowo omówić każdą z wymienionych kategorii.

 

Bibliografia:

  1. D. J. Hand, H. Mannila, P. Smyth. Principles of Data Mining (Adaptive Computation and Machine Learning). The MIT Press, 2001.




Komentarze




Nowy komentarz


 

 E-mail nie będzie publikowany

 Kompletny link z http://

 To robimy aby utrudnic spamowanie botami.