5.4 Problemtypen des Data-Mining
Einen pragmatischen, in der einschlägigen Literatur einheitlich anerkannten Ordnungsrahmenzur Systematisierung der verschiedenen Problemtypen liefern FAYYAD, PIATETSKY- SHAPIRO und SMYTH. Dabei werden diese denOberklassenBeschreibungsprobleme und Prognoseprobleme zugeordnet:
Im Folgenden werden die verschiedenen Problemtypen im Rahmen des situativen Kontextes vorgestellt.
5.4.1 Beschreibungsprobleme
Unter Beschreibungsproblemen wird die Gruppe von Problemtypen zusammengefasst, deren Ziel in der Beschreibung der kausalen Zusammenhänge des Datengenerierungsprozesses liegt. Die Qualität eines entdeckten Musters kann anhand von methodenspezifischen Qualitätskriterienbestimmt werden, die die deskriptive Akkuratheitdes Musters bewerten.
Beschreibung
„Die Zielsetzung der Datenbeschreibung ist die Zusammenfassung der wesentlichen Charakteristika der Daten in möglichst kompakter Form.“ HIPPNER und WILDE zählen die Deskription nicht zum Kern des Data Mining. BERRY und LINOFF führen jedoch an, dass leicht verständliche Beschreibungen oftmals auch Erklärungen suggerieren, die dann unser Verständnis für den Datenentstehungsprozess verbessern. Zwar lassen sich deskriptive Verfahren nicht der explorativen Datenanalysezuordnen, jedoch erfüllen verschiedene deskriptive Methoden ebenfalls die Ziele des Data Mining. Sie helfen, Fragestellungen zu präzisieren, wenn diese nicht genau definiert sind, und unterstützen den Anwender bei der Suche nach Strukturen und Besonderheiten. Deskriptive Verfahren sind aufgrund der genannten Eigenschaften dem Data-Mining zuzuordnen. Als modernes, deskriptives Verfahren istOLAPzu nennen, das durch verschiedene Navigationstechniken die gerichtete wie die ungerichtete Suche in den Daten erleichtert.
Abweichungsanalyse
Im Rahmen der Abweichungsanalyse werden solche Informationsobjekte ermittelt und analysiert, die für bestimmte Merkmalswerte von einer Norm oder einem erwarteten Wert abweichen. Das Ziel besteht darin, diese Abweichungen zu analysieren und zu interpretieren. Diese können auf die Verschiebung alter oder die Entwicklung neuer Muster im zugrunde liegenden Datengenerierungsprozess hindeuten und dadurch Anlass geben, existierende Erklärungsmodelle bezüglich ihrer Gültigkeit zu hinterfragen.
Abhängigkeitsanalyse
Das Ziel von Abhängigkeitsanalysen ist die Entdeckung von signifikanten Dependenzen zwischen den Attributen eines Informationsobjektes. Dabei unterscheidet man bei der Abhängigkeitsanalyse, ob die Zieldaten und die Richtung der Kausalitätsbeziehung zwischen den Attributen bekannt sind oder nicht. Sind sie bekannt, können Regressionsverfahren, Bayes’sche Netze oder Entscheidungsbäume eingesetzt werden, um sie zu konkretisieren. Klassische Verfahren, die derartiges Wissen nicht voraussetzen, sind die Assoziationsanalyse oder die Korrelationsanalyse. Sequenzanalysen wiederum ermitteln Abhängigkeiten aus der zeitlichen Entwicklung von Informationsobjekten.
Der wohl klassischste Vertreter dieser Problemgruppe ist die sogenannte Warenkorbanalyse, bei der Informationen über das gleichzeitige Interesse der Akteure für mehrere Leistungen oder Leistungsgruppen analysiert und in wirtschaftliches Verhalten umgesetzt werden. Dabei wird bei der klassischen Assoziationsanalyse, ausgehend von nachgefragten Leistungsbündeln, auf die Komplementarität dieser Leistungen geschlossen.
Gruppenbildung (Clustering)
Die Gruppenbildung „zielt auf die Aufspaltung der Daten in interessante und sinnvolle Teilmengen oder Klassen.“ Dabei ist die Zielvorstellung, dass Objekte innerhalb einer Klasse möglichst homogen, Objekte aus unterschiedlichen Klassen möglichst heterogen zueinander sind. Die Quantifizierung des Homogenitätsgrades geschieht über ein Proximitätsmaß, das hinsichtlich des Skalenniveaus und der Variablenstruktur ausgewählt werden muss. Die statistischen Segmentierungsverfahren lassen sich in vier Gruppen unterteilen: Während deterministische Verfahren (Nearest-Neigbourhood-Verfahren, k-means- Verfahren) die eindeutige Zuordnung von Informationsobjekten zu Clustern verlangen, arbeiten probabilistische Verfahren mit Zugehörigkeitsgraden, deren Summe sich für jedes Element auf eins summiert. Possibilistische Verfahren (Fuzzy-Cluster-Verfahren) heben diese Restriktion auf, so dass Elemente auch mehreren Klassen zugeordnet oder auch gar keiner Klasse zugeordnet werden können. Unvollständige Segmentierungsverfahren (Multidimensionale Skalierung) erzeugen eine räumliche Darstellung der Objekte, ohne eine Gruppeneinteilung vorzunehmen. Neben den statistischen Verfahren können zur Gruppenbildung auch Verfahren des maschinellen Lernenseingesetzt werden, beispielsweise Künstliche Neuronale Netze.
Die Gruppenbildung wird im Allgemeinen aus zwei Gründen durchgeführt: Bezogen auf die (potenziellen) Nachfrager versucht insbesondere die Clusteranalyse, die typischen Charakteristika von Gruppen zu identifizieren, um daraus gruppenspezifische Leistungen (von individuellen Kommunikationswegen über individuelle Kommunikationsinhalte bis hin zu individuellen Leistungsversprechen) zu entwickeln. Bezogen auf die Menge der im relevanten Markt angebotenen Leistungsversprechen versuchen insbesondere die Ansätze der multidimensionalen Skalierung, Nischen zu entdecken, um diese durch neuartige Angebote zu bedienen.
Siehe auch Clusteranalyse.
5.4.2 Prognoseprobleme
Das Ziel von Prognoseproblemen ist die Entwicklung von mathematischen Modellen, mit deren Hilfe aus einem gegebenen Input der zu erwartende Output bestimmt werden kann. Die Qualität eines solchen Modells kann über seine Prognosefähigkeit, also über seine prädiktive Akkuratheit, bestimmt werden.
Klassifikation
Klassifikationsverfahren konstruieren Modelle, mittels deren Informationsobjekte anhand von objekt- und umweltspezifischen Eigenschaften vordefinierten Klassen zugeteilt werden können. Durch diese Zuordnung kann das Objekt mit den klassenspezifischen Eigenschaften in Verbindung gebracht werden, um so das erwartete Verhalten eines Informationsobjektes abzuleiten. Zum Aufstellen eines mathematischen Modells werden dazu eine feste Anzahl an Klassen sowie Beispiele von Klasseninstanzen und deren Attributwerte benötigt. Mathematische Methoden, die für das Aufstellen von Klassifikationsmodellen hilfreich sind, entstammen sowohl der klassischen Statistik (Diskriminanzanalyse, K-Nächste-Nachbarn- Methode) als auch dem maschinellen Lernen. Symbolische Lernverfahren, beispielsweise Entscheidungsbaumverfahren oder Regelinduktion, stellen Verfahren dar, welche für den Anwender verständliche Klassenbeschreibungen generieren. Subsymbolische Verfahren wie Künstliche Neuronale Netze arbeiten hingegen nach dem Black-Box- Prinzip, Klassenbeschreibungen sind nicht aus dem konstruierten Modell heraus ableitbar.
Wirkungsprognose
Das Ziel der Wirkungsprognose ist es, ähnlich wie bei der Klassifikation, Zielwerte zu bestimmen. Anders als bei der Klassifikation sind diese Zielwerte jedoch quantitativer Natur. Die Regressionsanalyse ist die typische Vertreterin der klassischen statistischen Verfahren zur Formalisierung von Wirkungszusammenhängen. Diese Methode ist beschränkt auf lineare Zusammenhänge, so dass für unbekannte Zusammenhänge oftmals Künstliche Neuronale Netze, Box- Jenkins-Verfahren oder regelbasierte Verfahren eingesetzt werden. Mittels Klassifikationsverfahren und Wirkungsprognosen können Systeme konstruiert werden, die für die flexiblen Gestaltungsparameter als Input den erwarteten Output einer Zielgröße bestimmen. Durch den Einsatz von Entscheidungsbäumen oder künstlichen neuronalen Netzen können diese Gestaltungsparameter unter gegebenen Umweltbedingungen optimiert werden.