Virtous Cycle of Data Mining
Pierwszą z omawianych metodyk jest Virtuous Cycle of Data Mining. Abstrahując od jakichkolwiek technicznych aspektów data mining, eksploracja danych jest traktowana w tym przypadku w sposób zbliżony do procesu biznesowego, a całość składa się z czterech etapów.
Są to po kolei:
- Identyfikacja problemów - analiza działalności podmiotu i znalezienie tych jej aspektów, które potencjalnie mogą zostać zoptymalizowane. Na tym etapie powinny paść odpowiedzi na poniższe pytania:
- Czy projekt data mining jest istotnie potrzebny?
- Czy wśród badanych obiektów da się zauważyć i wyodrębnić grupy (bądź pojedynczą grupę)?
- Jakie są ogólne zasady prowadzenia działalności, które mogą wpłynąć na dostępność danych i możliwość podejmowania działań?
- Jakie są właściwości danych? Jaka jest wiarygodność stosowanych źródeł danych? Gdzie, kiedy i w jaki sposób można uzyskać dane?
- Jaka jest wiedza o problemie wynikająca z doświadczenia i intuicji praktyków?
- Eksploracja danych - transformacja danych w informacje pozwalające podjąć odpowiednie działania. W tym punkcie wykonywane są takie czynności jak:
- Identyfikacja i pozyskanie danych
- Sprawdzenie, zbadanie i oczyszczenie danych.
- Uzyskanie właściwego układu danych.
- Dodanie zmiennych wyliczonych na podstawie wartości cech.
- Wybranie próby uczącej.
- Wybranie metody modelowania.
- Sprawdzenie dobroci dopasowania.
- Podjęcie działań na podstawie informacji uzyskanych w poprzednim kroku - tak naprawdę właściwy cel przeprowadzania całego procesu eksploracji danych.
- Ewaluacja wyników dokonanych zmian i usprawnień.
Rysunek poniżej wyjaśnia, dlaczego chodzi o "Cycle"...

Techniczna realizacja Virtuous Cycle of Data Mining to nieco inna wyliczanka - obejmująca jedenaście kroków:
- Rozpoznanie problemu biznesowego w kontekście eksploracji danych
- Wybór odpowiednich danych
- Wstępna analiza i rozpoznanie danych
- Stworzenie pełnego zbioru danych
- "Naprawa" danych
- Transformacja danych
- Budowa modeli
- Ocena modeli
- Wdrożenie modeli
- Ocena wyników
- Rozpoczęcie od nowa

Powyższy rysunek pokazuje, że cały proces eksploracji danych posiada swój porządek, jednak dla osiągnięcia zadowalających rezultatów niemal zawsze konieczne jest powtarzanie poszczególnych faz, nie zawsze w liniowym porządku. Zgodnie z tym podejściem o procesie odkrywania wiedzy należy raczej myśleć w kategoriach zagnieżdżających się pętli niż linii prostej łączącej poszczególne etapy. Przedstawione kroki mają swoją kolejność, lecz nie jest konieczne wykonanie wszystkich czynności w danym kroku przed przejście do kolejnego. Czasami wręcz nie jest to pożądane.
Bibliografia:
- M. J. Berry and G. S. Linoff. Data Mining Techniques For Marketing, Sales, and Customer Relationship Management. Wiley Publishing, Inc., 2004
- T. Demski. Jak wdrozyc i stosowac data mining w praktyce? StatSoft, 2003.
