Data mining, czyli eksploracja danych

17 pażdziernik 2007 | Wojciech Wilusz | Artykuł
Temat inauguracyjnej notki właściwie narzuca się sam. Nie bujając zanadto w obłokach i skupiając się na (oby) istocie rzeczy - próba rzetelnego zdefiniowania czym jest eksploracja danych.
Jak się okazuje postawione zadanie nie jest aż tak proste. Niemal każdy autor w swojej publikacji związanej z eksploracją danych, na swój sposób podejmuje się podania definicji pojęcia data mining.
Jedna z najwcześniejszych, pochodząca z 1992 r. opisywała eksplorację danych jako „nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych”. Z kolei David J. Hand - bez wątpienia osoba, którą można uznać za autorytet w tej dziedzinie - pisze „nauce zajmującej się wydobywaniem informacji z dużych zbiorów danych lub baz danych”. Jeszcze później, dwóch panów w książce dotyczącej zastosowań eksploracji danych w dziedzinie marketingu twierdzi, że terminem data mining określa się eksplorację i analizę dużych ilości danych w celu znalezienia znaczących zależności, schematów, wzorców i zasad. Jeden z nielicznych autorów publikujących w temacie na lokalnym podwórku przybliżając czytelnikowi przedmiot odkrywania wiedzy z danych pisze o dużych zasobach danych zawierających statystycznie istotne zależności, których wychwycenie bez zautomatyzowanych metod nie byłoby możliwe. Zależności te sformułowane w odpowiedniej postaci i odpowiednio zinterpretowane mają na celu służyć usprawnieniu danej działalności; mogą one zostać także wykorzystane do automatycznego wnioskowania, w tym miedzy innymi do predykcji i wykrywania anomalii. Tym samym, jak konkluduje autor, „stanowią (…) one wiedzę, ukrytą w danych i wyciągniętą na jaw przez proces odkrywania, która może być interesująca i pożyteczna sama w sobie, a ponadto posłużyć jako podstawa działania systemów eksperckich”. O podsumowanie wysiłku różnych autorów pokusił się w swoim artykule prof. Sokołowski - człowiek związany z jednym z potentatów w dziedzinie analizy danych - firmą StatSoft, która jest producentem m.in. popularnego pakietu Statistica. I tak: ”(…) najogólniej rzecz biorąc (…) data mining to proces znajdowania interesujących wzorców, powiązań, anomalii, ukrytych struktur w bardzo dużych zbiorach danych zgromadzonych w hurtowniach danych (bez określonego celu badawczego)” i dalej: „to co jest charakterystyczne dla metodyki data mining, to ogrom danych nieuporządkowanych i konieczność zastosowania komputerów”. Przeciwstawia on podejście eksploracji danych do wykorzystywania metod statystycznych i większości metod eksploracyjnych, gdy działa sie na małych, uporządkowanych i przygotowanych wcześniej zbiorach danych.

Na marginesie, przy okazji próby definiowania pojęcia „data mining” warto zaznaczyć obszary, które mylnie bywają utożsamiane z eksploracja danych. Chodzi o systemy ekspertowe oraz - przede wszystkim - OLAP (ang. On-Line Analytical Processing). W przypadku tej ostatniej użytkownik - z założenia - posiada pełna wiedzę o jej przedmiocie oraz potrafi nią sterować. Z kolei eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika oraz tych problemów, dla których użytkownik nie dysponuje pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych.

 

Bibliografia:

  1. W.Frawley, G.Piatetsky-Shapiro, C.Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992
  2. D.J.Hand, H.Mannila, and P.Smyth. Principles of Data Mining (Adaptive Computation and Machine Learning). The MIT Press, 2001.
  3. M.J.Berry and G.S.Linoff. Data Mining Techniques For Marketing, Sales, and Customer Relationship Management. Wiley Publishing, Inc., 2004.
  4. P. Cichosz. Systemy uczące się. Wydawnictwa Naukowo-Techniczne, 2000.
  5. A. Sokołowski. Wprowadzenie do zastosowań metod statystycznych i technik data mining w badaniach naukowych. StatSoft, 2002.




Komentarze




Nowy komentarz


 

 E-mail nie będzie publikowany

 Kompletny link z http://

 To robimy aby utrudnic spamowanie botami.