Virtous Cycle of Data Mining

22 luty 2008 | Wojciech Wilusz | Artykuł

Pierwszą z omawianych metodyk jest Virtuous Cycle of Data Mining. Abstrahując od jakichkolwiek technicznych aspektów data mining, eksploracja danych jest traktowana w tym przypadku w sposób zbliżony do procesu biznesowego, a całość składa się z czterech etapów.

Są to po kolei:

  1. Identyfikacja problemów - analiza działalności podmiotu i znalezienie tych jej aspektów, które potencjalnie mogą zostać zoptymalizowane. Na tym etapie powinny paść odpowiedzi na poniższe pytania:
    • Czy projekt data mining jest istotnie potrzebny?
    • Czy wśród badanych obiektów da się zauważyć i wyodrębnić grupy (bądź pojedynczą grupę)?
    • Jakie są ogólne zasady prowadzenia działalności, które mogą wpłynąć na dostępność danych i możliwość podejmowania działań?
    • Jakie są właściwości danych? Jaka jest wiarygodność stosowanych źródeł danych? Gdzie, kiedy i w jaki sposób można uzyskać dane?
    • Jaka jest wiedza o problemie wynikająca z doświadczenia i intuicji praktyków?
  2. Eksploracja danych - transformacja danych w informacje pozwalające podjąć odpowiednie działania. W tym punkcie wykonywane są takie czynności jak:
    • Identyfikacja i pozyskanie danych
    • Sprawdzenie, zbadanie i oczyszczenie danych.
    • Uzyskanie właściwego układu danych.
    • Dodanie zmiennych wyliczonych na podstawie wartości cech.
    • Wybranie próby uczącej.
    • Wybranie metody modelowania.
    • Sprawdzenie dobroci dopasowania.
  3.  Podjęcie działań na podstawie informacji uzyskanych w poprzednim kroku - tak naprawdę właściwy cel przeprowadzania całego procesu eksploracji danych.
  4. Ewaluacja wyników dokonanych zmian i usprawnień.

Rysunek poniżej wyjaśnia, dlaczego chodzi o "Cycle"... 

 

 

Techniczna realizacja Virtuous Cycle of Data Mining to nieco inna wyliczanka - obejmująca jedenaście kroków:

  1. Rozpoznanie problemu biznesowego w kontekście eksploracji danych
  2. Wybór odpowiednich danych
  3. Wstępna analiza i rozpoznanie danych
  4. Stworzenie pełnego zbioru danych
  5. "Naprawa" danych
  6. Transformacja danych
  7. Budowa modeli
  8. Ocena modeli
  9. Wdrożenie modeli
  10. Ocena wyników
  11. Rozpoczęcie od nowa

Powyższy rysunek pokazuje, że cały proces eksploracji danych posiada swój porządek, jednak dla osiągnięcia zadowalających rezultatów niemal zawsze konieczne jest powtarzanie poszczególnych faz, nie zawsze w liniowym porządku. Zgodnie z tym podejściem o procesie odkrywania wiedzy należy raczej myśleć w kategoriach zagnieżdżających się pętli niż linii prostej łączącej poszczególne etapy. Przedstawione kroki mają swoją kolejność, lecz nie jest konieczne wykonanie wszystkich czynności w danym kroku przed przejście do kolejnego. Czasami wręcz nie jest to pożądane.

 

Bibliografia:

  1.  M. J. Berry and G. S. Linoff. Data Mining Techniques For Marketing, Sales, and Customer Relationship Management. Wiley Publishing, Inc., 2004 
  2. T. Demski. Jak wdrozyc i stosowac data mining w praktyce? StatSoft, 2003. 




Komentarze




Nowy komentarz


 

 E-mail nie będzie publikowany

 Kompletny link z http://

 To robimy aby utrudnic spamowanie botami.