Crisp-DM

7 marzec 2008 | Wojciech Wilusz | Artykuł
Crisp-DM to metodyka eksploracji danych opracowana przez trzy koncerny: SPSS, NCR oraz DaimlerChrysler. Prace zostały zainicjowane w 1996, natomiast w sierpniu 2000 r. opublikowana została specyfikacja wersji 1.0. 

Crisp-DM dzieli proces eksploracji danych na sześć faz:

  1. Zrozumienie uwarunkowań biznesowych
  2. Zrozumienie danych
  3. Przygotowanie danych
  4. Modelowanie
  5. Ewaluacja
  6. Wdrożenie

Proces eksploracji danych zgodnie z metodyka Crisp-DM ilustruje poniższy rysunek (zaczerpnięty stąd).

 

 

 

Metodyka CRISP-DM to hierarchiczny model procesowy eksploracji danych. Składają się na nią różne grupy zadań, które przedstawione są na czterech poziomach abstrakcji. Kolejne poziomy, od najbardziej ogólnego, do szczegółowego zostały pokrótce opisane poniżej:

  • Phase - Faza: Termin na określenie wysokopoziomowych etapów modelu procesowego; składa sie z zadań (tasks). Przykładem może być etap opisany na rysunku jako "Zrozumienie uwarunkowań biznesowych", który stanowi pierwszą fazę procesu eksploracji danych. Fazy stanowiące najwyższy spośród opisanych poziom abstrakcji organizują cały proces eksploracji danych w dobrze określone etapy.
  • Generic task - Zadanie generyczne: Zadanie generyczne to ogólny opis zadań wykonywanych w każdej z faz. Przykładem takiego zadania może być czyszczenie danych. Zadania generyczne biorą swoją nazwę z ich ogólnikowego charakteru. Powinny one być możliwie niezmienne, bez względu na charakter projektu - nawet przy wdrażaniu nowych technik np. modelowania, zadanie generyczne powinno pozostać takie samo. Ponadto powinny one pokrywać cały proces - sytuacja, w której nie jest możliwe przyporządkowanie wykonywanej czynności do odpowiedniego zadania generycznego nie powinna mieć miejsca.
  • Specialized task - Zadanie specjalizowane: Trzeci poziom to zadania specjalizowane: w tym wypadku następuje specyfikacja w jaki sposób zadania generyczne powinny zostać wykonane w określonych warunkach. Można to zilustrować rozwijając przykład z czyszczeniem danych, które będąc zadaniem generycznym, może składać się z zadań specjalizowanych, takich jak czyszczenie danych numerycznych oraz czyszczenie danych kategorycznych. Rolą zadań specjalizowanych jest umiejscowienie i opisanie sposobu wykonania zadań generycznych w kontekście konkretnego projektu.
  • Process instance - instancja procesu: konkretny projekt, opisany w kontekście modelu procesowego. Instancje procesów to zapis przedsięwziętych akcji, podjętych decyzji i otrzymanych rezultatów. Pojedyncza instancja opisuje wyniki faktycznego działania (działań).


Bibliografia:

  1. www.crisp-dm.org
  2. J. Wang. Encyclopedia of Data Warehousing and Mining. Idea Group Publishing, 2005.




Komentarze




Nowy komentarz


 

 E-mail nie będzie publikowany

 Kompletny link z http://

 To robimy aby utrudnic spamowanie botami.