Data mining, czyli eksploracja danych
17 pażdziernik 2007 |
Wojciech Wilusz
| Artykuł
Temat inauguracyjnej notki właściwie narzuca się sam. Nie bujając zanadto w obłokach i skupiając się na (oby) istocie rzeczy - próba rzetelnego zdefiniowania czym jest eksploracja danych.
Jak się okazuje postawione zadanie nie jest aż tak proste. Niemal każdy autor w swojej publikacji związanej z eksploracją danych, na swój sposób podejmuje się podania definicji pojęcia data mining.
Jedna z najwcześniejszych, pochodząca z 1992 r. opisywała eksplorację danych jako „nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych”. Z kolei David J. Hand - bez wątpienia osoba, którą można uznać za autorytet w tej dziedzinie - pisze „nauce zajmującej się wydobywaniem informacji z dużych zbiorów danych lub baz danych”. Jeszcze później, dwóch panów w książce dotyczącej zastosowań eksploracji danych w dziedzinie marketingu twierdzi, że terminem data mining określa się eksplorację i analizę dużych ilości danych w celu znalezienia znaczących zależności, schematów, wzorców i zasad. Jeden z nielicznych autorów publikujących w temacie na lokalnym podwórku przybliżając czytelnikowi przedmiot odkrywania wiedzy z danych pisze o dużych zasobach danych zawierających statystycznie istotne zależności, których wychwycenie bez zautomatyzowanych metod nie byłoby możliwe. Zależności te sformułowane w odpowiedniej postaci i odpowiednio zinterpretowane mają na celu służyć usprawnieniu danej działalności; mogą one zostać także wykorzystane do automatycznego wnioskowania, w tym miedzy innymi do predykcji i wykrywania anomalii. Tym samym, jak konkluduje autor, „stanowią (…) one wiedzę, ukrytą w danych i wyciągniętą na jaw przez proces odkrywania, która może być interesująca i pożyteczna sama w sobie, a ponadto posłużyć jako podstawa działania systemów eksperckich”. O podsumowanie wysiłku różnych autorów pokusił się w swoim artykule prof. Sokołowski - człowiek związany z jednym z potentatów w dziedzinie analizy danych - firmą StatSoft, która jest producentem m.in. popularnego pakietu Statistica. I tak: ”(…) najogólniej rzecz biorąc (…) data mining to proces znajdowania interesujących wzorców, powiązań, anomalii, ukrytych struktur w bardzo dużych zbiorach danych zgromadzonych w hurtowniach danych (bez określonego celu badawczego)” i dalej: „to co jest charakterystyczne dla metodyki data mining, to ogrom danych nieuporządkowanych i konieczność zastosowania komputerów”. Przeciwstawia on podejście eksploracji danych do wykorzystywania metod statystycznych i większości metod eksploracyjnych, gdy działa sie na małych, uporządkowanych i przygotowanych wcześniej zbiorach danych.
Na marginesie, przy okazji próby definiowania pojęcia „data mining” warto zaznaczyć obszary, które mylnie bywają utożsamiane z eksploracja danych. Chodzi o systemy ekspertowe oraz - przede wszystkim - OLAP (ang. On-Line Analytical Processing). W przypadku tej ostatniej użytkownik - z założenia - posiada pełna wiedzę o jej przedmiocie oraz potrafi nią sterować. Z kolei eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika oraz tych problemów, dla których użytkownik nie dysponuje pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych.
Bibliografia:
- W.Frawley, G.Piatetsky-Shapiro, C.Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992
- D.J.Hand, H.Mannila, and P.Smyth. Principles of Data Mining (Adaptive Computation and Machine Learning). The MIT Press, 2001.
- M.J.Berry and G.S.Linoff. Data Mining Techniques For Marketing, Sales, and Customer Relationship Management. Wiley Publishing, Inc., 2004.
- P. Cichosz. Systemy uczące się. Wydawnictwa Naukowo-Techniczne, 2000.
- A. Sokołowski. Wprowadzenie do zastosowań metod statystycznych i technik data mining w badaniach naukowych. StatSoft, 2002.
