5.3 Definition
Bensberg versteht Data-Mining als integrierten Prozess, „der durch Anwendung von Methoden auf einen Datenbestand Muster entdeckt“. Der Begriff Data-Mining wird hier aus prozessorientierter Sicht definiert; Ziel ist die Erkennung von Mustern. Bewusst wird in dieser Definition auf den Begriff der Informationverzichtet, da Data-Mining der sigmatischenEbene der Semiotikzugeordnet wird. Die im Rahmen der explorativen Datenanalysestattfindende Auseinandersetzung mit Informationenim Sinne eines subjektiven Wissenszuwachses, die auf derpragmatischenEbene abläuft, wird der Wissensentdeckung in Datenbankenzugeordnet.
Bensberg verzichtet auf die vielfach in der Literatur zu findende Beschränkung auf große Datenmengen: Auch kleinere Datenmengen können bedeutungsvolle Muster enthalten, die sich durch Data-Mining entdecken und aufzeigen lassen. Eine Abgrenzung von Data-Mining zurstatistischen Datenanalysesowie eine Beschränkung der dem Data-Mining zuordenbaren Methoden findet jedoch nicht statt (Lit.: Bensberg, S. 64).
Im Folgenden wird Data-Mining in Anlehnung an Bensberg als integrierter Prozess verstanden, der durch Anwendung von Data-Mining-Techniken auf einen Datenbestand Muster entdeckt und kommuniziert. Data-Mining-Techniken sind Techniken, die der explorativen Datenanalysezugeordnet werden können. Ziel der explorativen Datenanalyse – und damit konstruierendes Merkmal für die Definition von Data-Mining- Techniken – ist über die Darstellung der Daten hinaus die „Suche nach Strukturen und Besonderheiten [...]. Sie wird daher typischerweise eingesetzt, wenn die Fragestellung nicht genau definiert ist oder auch die Wahl eines geeigneten statistischen Modells unklar ist.“ Die Interpretation der entdeckten Muster obliegt dabei dem jeweiligen Empfänger, ist folglich nicht dem Data-Mining-Prozess zuzuordnen und stellt konzeptionell die Abgrenzung zum Konzept der Wissensentdeckung in Datenbankendar. Der Data-Mining-Prozess umfasst somit, ausgehend von der Datenselektion, alle Aktivitäten, die zur Kommunikation von in Datenbeständen entdeckten Mustern notwendig sind. HUKEMANN unterteilt diesen Prozess in Anlehnung an FAYYAD, PIATETSKY- SHAPIRO und SMYTH in die Phasen: Aufgabendefinition, Selektion und Extraktion, Vorbereitung und Transformation, Mustererkennung, Evaluation und Präsentation.
Da der Data-Mining-Prozess auf dersigmatischenEbene stattfindet, stellt sich die Frage, inwieweit die Evaluation der Ergebnisse als Bestandteil des Data-Mining-Prozesses gelten kann. Während in der Phase der Mustererkennung dieprädiktiveund deskriptiveGenauigkeit geprüft wird, werden entdeckte Muster im Rahmen der Evaluation auf ihre Relevanz, ihre Verständlichkeit, ihre Nützlichkeit und Verwertbarkeit sowie auf ihre Neuheit geprüft. Die hierbei zugrunde liegenden Gütefunktionensind stark abhängig von subjektiven Einflussfaktoren und damit der pragmatischenEbene zuzugliedern. Somit muss die Evaluation der Ergebnisse der Wissensentdeckung in Datenbankenzugeordnet werden. Die Annahme, dass für eine beliebige Fragestellung und die daraus abgeleiteten Aufgabendefinition der Data- Mining-Prozess erfolgreich terminiert, darf als nicht haltbar angesehen werden. In der Praxis scheitert dieser Prozessregelmäßig sowohl an fehlenden wie auch an fehlerhaften Datenquellen. So verweisen HIPPNER und WILDE darauf, dass die einzelnen Phasen in „intensiver Interaktion mit dem Anwender und mit zahlreichen Rückkopplungen ablaufen“. BERRY und LINOFF verzichten vollständig auf die Einbettung der Aufgabendefinition in den Data-Mining-Prozess. So bleibt gewährleistet, dass auch die ungerichtete Suche nach Mustern, der keine zentrale Fragestellung vorangeht, durch den Data-Mining- Prozess abgebildet werden kann. Zur Gewährleistung von Effektivitätund Effizienzmuss jedoch umfassendes Wissen über Aufgabenstellung und Domänenbezug beim Anwender vorhanden sein. Nur so ist sichergestellt, dass alle Möglichkeiten und Chancen, welche die domänenspezifische Fragestellung bietet, genutzt werden und etwaige Probleme im Hinblick auf das Gesamtziel betriebswirtschaftlich sinnvoll gelöst werden. Im Folgenden wird der Data-Mining-Prozess in vier Phasen unterteilt: Datenselektion, Datenvorbereitung, Mustererkennung und Kommunikation.
Die Schnittstellezur Wissensentdeckung in Datenbankenstellt die Kommunikationder entdeckten Muster dar, die im Weiteren evaluiert und interpretiert werden können.