5.5 Methodologie des Data-Mining-Prozesses
5.5.1 Datenselektion und -extraktion
Die Selektion erfolgt in zwei Schritten: „Im Rahmen der vertikalen Datenselektion werden die relevanten Analyseobjekte (Datensätze, Tupel) bestimmt. Die relevanten Attribute werden im Zuge der horizontalen Datenselektion festgelegt.“ Ist der „richtige“ Aggregationsgradder Daten in dieser Phase noch unbekannt, sollte der niedrigste verfügbare Aggregationsgrad ausgewählt werden. Anschließend werden die Daten aus den Systemen extrahiert. Verfügbare Metadatensollten für die Auflösung semantischer Unklarheiten während der Datenbereinigung und während der Ergebnisinterpretation ebenfalls extrahiert werden. Die Qualität und Quantität der ermittelten Daten beeinflusst dabei maßgeblich die späteren Analysemöglichkeiten sowie die Qualität des Ergebnisses. DomänenspezifischesWissen über potenzielle Datenquellen und ihre Erschließung ist daher unabdingbar. Rechtliche Restriktionen (insbesondere zum Datenschutz) müssen dabei jedoch berücksichtigt werden. Nachdem die Daten erfolgreich aus den jeweiligen Systemen extrahiert worden sind, müssen sie für die weitergehende Analyse inhaltlich und formal aufbereitet werden. Die ideale Anwendungsumgebung stellt alle benötigten Daten konsistent abgebildet in einem Data Warehousebereit. In der Praxis ist dies jedoch regelmäßig nicht der Fall. Relevante Daten liegen meist zerstreut in den Datenbanken der historisch gewachsenen operativen Systeme. Benötigte Daten werden teilweise gar nicht oder nur unzureichend durch diese Systeme aufgezeichnet, wenn aus operativer Sicht keine Notwendigkeit für eine Erfassung ersichtlich ist. Grundsätzlich sollten neben den verschiedenen Datenbanken der operativen Systeme daher auch folgende Datenquellen auf ihre Relevanz geprüft werden:
Daten in Papierform
Ist zum Zeitpunkt der Erhebung kein unmittelbarer Nutzungsbedarf erkennbar, wird auf eine maschinelle Erfassung von Daten oftmals verzichtet, so beispielsweise bei Laufzetteln. Daten in Papierform, die häufig bereits in semistrukturierter Form vorliegen und damit leicht in eine digitale Form transformiert werden können, stellen eine wichtige potenzielle Informationsquelle dar.
Nichtformatierte Daten
Data-Mining-Methoden setzen auf formatierten Daten in Form von nominal, ordinaloder kardinalskalierten Merkmalen auf. Nichtformatierte Daten, beispielsweise Freitextdokumente (Kundenbeschwerden, Anfragen etc.), werden bei der Datenselektion meist pauschal ausgelassen. Allein über deskriptive Verfahren lassen sich hieraus bereits relevante Daten ermitteln. Die Anwendung verschiedener Textmining-Techniken ermöglicht die tiefergehende Analyse von unstrukturierten Daten in Textform.
Implizites Wissen
Mit Methoden des Wissensmanagementskann implizites Wissen, das nicht formal dokumentierbar ist, explizit und formatiert abgebildet werden.
Externe Datenquellen
Auch externe Datenquellen sollten bei der Datenselektion auf ihre Relevanz geprüft werden. Neben den – meist kommerziellen – Brancheninformationsdiensten stellt das Internet eine wichtige externe Datenquelle dar.
5.5.2 Datenaufbereitung
Die Datenaufbereitung stellt eine elementare Aufgabe des Data-Mining dar. Dies unterstreicht CABENA, wenn er feststellt, dass lediglich zehn Prozent des Zeitaufwandes im Data-Mining unmittelbar auf den Einsatz von Data-Mining-Methoden entfallen, während 90 Prozent in die Datenaufbereitung und Ergebnisnachbearbeitung fließen. Empirische Untersuchungen belegen Fehlerwahrscheinlichkeiten in den Rohdaten von bis zu 30 Prozent und damit auch die Relevanz der Datenbereinigung.
Datenbereinigung
Ziel dieses Schrittes ist auch die Struktur- und Formatvereinheitlichung zur Steigerung der Datenqualität. Erst wenn eine ausreichende Datenqualität sichergestellt ist, können die Daten für die weitere Analyse transformiert und codiert werden. Insbesondere bei heterogenen Datenquellen tauchen bei der Integration der Daten erhebliche Probleme auf:
Inkompatible Identifikationsschlüssel
In einer zusätzlichen Relation müssen inkompatible Identifikationsschlüssel einander zugeordnet werden. Dies kann über einen Abgleich der Identifikationsdaten geschehen – jedoch ist dieses Verfahren fehleranfällig. Ein effizienteres Verfahren stellt der Einsatz so genannter Matchcodesdar. Dieser künstliche Primärschlüssel(auch Surrogate Keygenannt), der anhand von wenig fehleranfälligen Zeichenfolgen aus verschiedenen Attributen gebildet wird, liefert im Allgemeinen bessere Ergebnisse und ermöglicht zugleich das Erkennen und Löschen von Doubletten.
Semantische Abbildungsdefekte
Ohne Metadaten oder entsprechendes Domänenwissen zur Datenbasis können semantische Probleme nicht aufgelöst werden. Semantische Probleme manifestieren sich „in Form von Synonymen (unterschiedliche Bezeichnung des gleichen Dateninhaltes in verschiedenen Datenquellen) und Homonymen (gleiche Bezeichnung unterschiedlicher Dateninhalte, beispielsweise wird das Merkmal „inaktiver Kunde“ in zwei Datenquellen sechs bzw. 18 Monate nach dem letzten Kauf vergeben)“. Allgemeingültige Verfahren zur Lösung solcher Probleme gibt es nicht, vielmehr muss mit Hilfe von Metadaten sowie von domänenspezifischem Wissen über die Daten versucht werden, semantische Probleme individuell zu lösen.
Syntaktische Abbildungsdefekte
Verschiedene Schreibweisen (Weseler Straße vs. Weselerstraße, Meier vs. Maier) sowie verschiedene Repräsentationen eines identischen Sachverhaltens (weiblich vs. f) führen zu syntaktischen Problemen. Durch eine Vereinheitlichung der syntaktischen Abbildung von Attributen sowie mit Hilfe von Nachschlagewerken (Straßenverzeichnissen etc.) können solche Probleme gelöst werden.
Zeitlogische Abbildungsdefekte
Liegt zwischen der letzten Aktualisierung eines Datensatzes und dem Tag der Datenselektion ein für die jeweilige Attributsausprägung relativ langer Zeitraum steigt die Wahrscheinlichkeit, dass sich dieser geändert haben wird. Die richtig erhobenen Werte unterliegen einem zeitlogischen Abbildungsdefekt, der oftmals nur schwer aufgelöst werden kann. Liefert auch eine Rückkopplung zur Datenselektion keine sicheren Werte, ist im Einzelfall zu prüfen, ob kritische Werte als Fehlwerte behandelt werden müssen.
Redundanzen
Ursache für Redundanzen sind im Allgemeinen entweder fehlende Namenskonventionen oder eine fehlende Normalisierungder zugrunde liegenden Datenmodelle. Durch den Verzicht auf einheitliche Namenskonventionen, die sich über alle operativen Systeme erstrecken, kann ein Attribut in verschiedenen Quellen unter verschiedenen Attributsbezeichnungen gespeichert werden und nach der Zusammenführung der Daten doppelt auftreten. Bei einer fehlenden Normalisierung des Datenmodells können funktionale Abhängigkeiten zwischen verschiedenen Attributen auftreten, die ebenfalls redundante Informationen repräsentieren. Werden diese Redundanzen nicht erkannt und gegebenenfalls eliminiert, können sie fälschlicherweise als triviale Muster im Ergebnis auftauchen.
Fehlwerte
„In relationalen Datenbanken taucht das Problem fehlender Werte (missing values) häufig auf, da oftmals dieselbe Satzlänge für jeden Datensatz auch dann gefordert ist, wenn für einige Felder keine Eintragungen möglich sind“ oder aus Sicht des eintragenden Mitarbeiters für die aktuelle Transaktion unwichtig erscheinen. Dabei ist zu unterscheiden zwischen echten Fehlwerten, deren Daten nicht bestimmbar sind, und unechten Fehlwerten, deren Daten nicht bestimmt wurden. Die Attributsausprägungen von unechten Fehlwerten können durch eine Rückkopplung zur ersten Phase des Data-Mining-Prozesses, der Datenselektion und - extraktion, teilweise ermittelt werden. Das Korrigieren der Fehlwerte nach gängigen Ersetzungsstrategien ist jedoch nur unter Vorbehalt durchzuführen und auch das Löschen der betroffenen Datensätze kann, im Falle systematischer Fehler, zu einer Verschiebung der Ergebnisse führen. Bei der Behandlung von Fehlwerten ist zu beachten, dass das Fehlen von Werten auch eine wertvolle Information darstellen kann. Interessante Ergebnisse können sich hier insbesondere dann ergeben, wenn das Fehlen einer Angabe direkt mit ihrer Ausprägung zusammenhängt. In jedem Fall verfolgt die Behandlung von Fehlwerten das Ziel, ein „Höchstmaß an Informationsgehalt aus der vorhandenen Datenbasis zu ziehen, ohne ein tolerierbares Maß an Verzerrung zu überschreiten.“
Falschwerte
Attributsausprägungen, die objektiv falsch sind (wie z. B. ein Geburtsdatum in der Zukunft), müssen überarbeitet werden. Lassen sich dabei die richtigen Werte nicht ermitteln, so ist der Falschwert zu löschen und als Fehlwert zu behandeln. Dabei lassen sich Falschwerte in zwei Gruppen unterteilen: Echte Falschwerte entstehen, wenn zum Abschluss einer Transaktion erforderliche Daten fehlen oder wenn ein Bedürfnis vorhanden ist, die Daten nicht preiszugegeben – Mitarbeiter oder auch Kunden neigen in solchen Fällen dazu, fiktive Werte anzugeben. Unechte Falschwerte wurden zwar erhoben, der im System gespeicherte Wert entspricht aber nicht dem tatsächlich genannten. Zu einer dieser beiden Gruppen zählen oftmals so genannte Ausreißer, die sich durch signifikante Distanzen zu den übrigen Werten auszeichnen. Dabei können neben mathematischen Verfahren auch Visualisierungstechniken eingesetzt werden, um Ausreißer zu ermitteln. Es ist jedoch im Einzelfall zu prüfen, ob diese Werte entgegen der ersten Vermutung nicht doch korrekt erfasst wurden und damit einen wichtigen, da atypischen, Sachverhalt repräsentieren. Ziel der Datenaufbereitung ist es, die Datenqualität zu steigern. Jedoch wird eine fehlerfreie Datengrundlage trotz intensiver Bemühungen selten zu erreichen sein. Schwächen im Pflegestand der Daten stehen einer erfolgreichen Datenanalyse grundsätzlich nicht im Wege, sollten jedoch bei der Interpretation der Ergebnisse berücksichtigt werden. Sobald eine ausreichende Datenqualität sichergestellt ist, müssen die Daten durch verschiedene Transformationen für die spätere Verwendung vorbereitet werden.
Aggregation von Merkmalen
Verschiedene Gründe zwingen zu einer Aggregation der Daten entlang bekannter hierarchischer Strukturen. Nicht aggregierte Daten führen insbesondere bei Assoziationsanalysen auf Datenbeständen mit einer Vielzahl von Attributen, wie etwa bei der Warenkorbanalyse für ein breites Sortiment, unweigerlich zu Performanzproblemen. Dann ist es unumgänglich, in der Hierarchieebene so lange aufwärts zu wandern, bis diese Performanzprobleme nicht mehr auftauchen. Die Auswahl des hierarchischen Pfades, entlang dem die Aggregation der Daten erfolgt, ist dabei abhängig von den verfolgten Zielen und muss im Einzelfall bestimmt werden. Zeigt sich, dass im vorliegenden Aggregationsgrad bestimmte Attributausprägungen selten auftauchen, kann dies zu Lasten der Signifikanz des Ergebnisses gehen: Zu dünn besetzte Datentabellen stellen für die weitere Analyse keine tragfähige Basis dar. Auch in solchen Fällen ist es unabdingbar, die Daten zu aggregieren. Bei der Wahl der Aggregationsebene ist zu bedenken, dass eine Aggregation die beobachtbare Streuung des jeweiligen Merkmals reduziert, „mit der Folge, dass sich Qualitätsmaße für Data-Mining-Modelle, die auf den erklärten Varianzanteil eines Zielmerkmals abstellen, mit wachsender Aggregation systematisch verbessern“. Daten können ebenfalls dann aggregiert werden, wenn sie im aktuellen Aggregationsniveau Informationen enthalten, die nicht von Interesse sind. In diesem Fall ist die Aggregation der Daten jedoch formal der Phase der Datenselektion zuzuordnen.
Berechnung neuer Attribute
„Bei der Transformation der Daten können noch neue, für die Analyse als sinnvoll erscheinende Attribute wie Summen, Abweichungs- und Durchschnittswerte definiert oder inhaltlich abhängige Felder zusammengefasst werden.“ So können Attribute geschaffen werden, die die Komplexität senken und damit die Interpretationsfähigkeit der generierten Lösung erhöhen. Der Informationsverlust einer Summierung (oder auch Mittelwertbildung) kann durch die gleichzeitige Ermittlung von Varianzund Schiefeannähernd ausgeglichen werden. Die Berechnung von Verhältniskennzahlen ist für solche Attribute ratsam, für die die Datenbasis eine stark heterogene Grundgesamtheit repräsentiert. So können beispielsweise Kundenumsätze von Firmenkunden zum Zwecke der Vergleichbarkeit in ein Verhältnis zur Mitarbeiterzahl der jeweiligen Firma gesetzt werden. Domänenspezifisches Wissen ist unumgänglich, um Verhältniskennzahlen zu bestimmen, die der Heterogenität der Datenbasis gerecht werden. Eine sinnvoll bestimmte Verhältniskennzahl bietet dabei – mehr als die Attribute für sich – eine Chance, interessante Ergebnisse zu generieren. Fundiertes A-priori- Wissen über kausale Zusammenhänge zwischen den Attributen ist die Voraussetzung, um durch mathematische Transformation einzelner Attribute die Komplexität der später einzusetzenden Methode reduzieren zu können. So können nichtlineare Wirkungszusammenhänge in lineare Wirkungsrelationen transformiert und dann mit weniger komplexen Data-Mining-Modellen erforscht werden. Zeitreihen können durch Mittelwertbildung, aber auch durch lineare Transformation – mit unterschiedlicher Gewichtung der einzelnen Werte – zu einer Kennzahl zusammengefasst werden. Auch kann die Verdichtung von Zeitreihen mittels polynomischer Funktionen erfolgen, durch die sich beliebige mathematische Funktionen approximieren lassen.
Umgang mit stark korrelierten Attributen
Neben der Selektion redundanter Attribute führt auch die Berechnung neuer Attribute zu Abhängigkeiten, die das Ergebnis durch eine Vielzahl trivialer Erkenntnisse aufblähen. Zugleich wirken sie sich negativ auf die Performanz der Analyse aus. Hier setzt die Reduktion von Attributausprägungen an. Die manuelle Vorauswahl von Attributen aufgrund domänenspezifischem A-priori-Wissen ist formal der Phase der Datenselektion zuzuordnen. Die Hauptkomponenten- oder Faktorenanalyse ermöglicht eine maximale Reduzierung der Dimensionalität bei minimalem Informationsverlust. Dabei werden ausgehend von den vorhandenen Attributen neue, synthetische Merkmale generiert, die maximal unkorreliert sind. Den daraus resultierenden Vorteilen steht eine erschwerte Interpretation der Ergebnisse gegenüber. Insbesondere für methodisch unerfahrene Nutzer sind die Ergebnisse unanschaulich und schwer analysierbar, da ein direkter Zusammenhang zwischen Ergebnis und Datenbasis scheinbar nicht vorhanden ist. Besteht a priori der Verdacht auf Korrelation verschiedener Merkmale und ist die Hauptkomponentenanalyse wegen der genannten Probleme nicht zielführend einsetzbar, stehen verschiedene Data-Mining-Methoden zur Verfügung, die automatisiert aussichtsreiche Gruppen von Erklärungs- oder Beschreibungsmerkmalen selektieren. Sollte in der späteren Phase der Mustererkennung erkannt werden, dass verschiedene Attribute hoch korreliert sind und die Berücksichtigung dieser Attribute keinen Zugewinn an Informationen darstellt, kann eine Rückkopplung zu dieser Phase des Prozesses stattfinden. Es wird dann das typischste, aussagekräftigste oder anschaulichste Attribut ausgewählt, während die anderen eliminiert werden.
Datenkodierung
Das Ziel der Datencodierung ist die inhaltliche Vorbereitung der selektierten und aufbereiteten Daten. Dafür stehen verschiedene Methoden zur Verfügung, die im Folgenden erläutert werden.
Normierung
Die Normierung von Werten ist ein Prozess, bei dem der Wertebereich eines Attributes mit Hilfe einer Normierungsfunktion zielführend verändert wird. Eine zielführende Veränderung des Wertebereichs für ein einzelnes Merkmal leitet sich im Allgemeinen aus den methodischen Anforderungen der eingesetzten Data-Mining-Methoden ab. Die Normierung mehrerer Attribute auf einen einheitlichen Wertebereich ist zielführend, wenn eine Vergleichbarkeit (bei Gleichgewichtung der verschiedenen Attribute) zwischen ihnen hergestellt werden soll. Als Beispiel für Normierungsfunktionen sei die z-Transformation genannt, die durch Mittelwertsubtraktion und Division durch die Standardabweichung den Mittelwert auf null und die Varianz auf eins normiert;
graphic

Erfordert die Auswahl der eingesetzten Data-Mining-Methoden eine Normierung auf das Intervall [0;1], so kann ein Merkmal durch die dezimale Skalierung (Division durch die kleinste Zehnerpotenz, die sicherstellt, dass die Absolutwerte aller Merkmale kleiner 1 sind) auf das gewünschte Intervall abgebildet werden;
graphic

Normierungsfunktionen lassen sich nur für quantitative Merkmale aufstellen und sind eindeutig umkehrbar.
Skalentransformation
In der Statistik unterscheidet man zwischen vier Skalenarten für Merkmale: der Nominal-, der Ordinal-, der Intervall-und der Verhältnisskala, wobei die beiden letztgenannten Skalen oft zur so genanntenKardinalskalazusammengefasst werden. Das Ziel der Skalentransformation besteht darin, ein Merkmal von einer Skala in eine andere zu überführen. Dabei treten bei der Umwandlung von kardinalskalierten Merkmalen in ordinal- oder nominalskalierte Merkmale selten Probleme auf – lediglich eine geeignete Bewertungsfunktion muss hierfür definiert werden. Verschiedene Data-Mining-Verfahren verlangen jedoch quantitative Inputdaten, so dass qualitative Daten gegebenenfalls in quantitative Daten umgewandelt werden müssen. Jedoch sollten diese Verfahren mit äußerster Vorsicht betrachtet werden. Häufig hat man dann keinen sinnvollen Output mehr. Sinnvoller ist es direkt die Daten innerhalb der Methoden richtig zu behandeln, anstatt willkürliche Verfahren zu verwenden, die häufig ohne statistische Grundlage sind. Diese Umwandlung leisten verschiedene Codierungstechniken: So ist für nominalskalierte Daten beispielsweise die „one of n“-Codierung, auch bekannt als flattening, einsetzbar, während für ordinalskalierte Daten die „fuzzy one of n“-Codierung, die „gradient one of n“-Codierung bzw. die „thermometer“-Codierung genutzt werden können.
Strukturelle Transformation
Ziel des abschließenden Teils der Datenaufbereitung ist es, die Daten strukturell auf die Analyse vorzubereiten, so dass sie „in einem Format vorliegen, das von den in der nächsten Phase anzuwendenden Werkzeugen zur Mustererkennung verarbeitet werden kann“. Das Ergebnis dieses Schrittes ist der fertig aufbereitete Zieldatenbestand, der in einem – für die jeweils anzuwendende Methode passenden – Format vorliegt. BERRY und LINOFF schlagen darauf aufbauend eine Dreiteilung der Datengrundlage in einen Trainingsdatensatz, einen Testdatensatz und einen Evaluierungsdatensatz vor. Die Gruppeneinteilung erfolgt standardmäßig durch eine (quasi-)zufällige Zuordnung der Datensätze zu den drei Gruppen. WEISS schlägt jedoch für die Prüfung der prädiktiven Akkuratheit von Zeitreihenanalyseneine besondere Berücksichtigung von aktuellen Daten im Evaluationsdatensatz vor, mit dem Ziel, die Aussagekraft des Systems für aktuelle Problemstellungen zu prüfen.
5.5.3 Mustererkennung
Der Prozess der Mustererkennung lässt sich formal in drei Phasen unterteilen: die Modellspezifikation, die Modellevaluation und die Suche. „Im Rahmen der Modellspezifikation findet die Auswahl des Analyseverfahrens [...] statt.“ „Dazu ist es erforderlich, aus der Fülle von Data-Mining-Methoden diejenige(n) herauszufiltern, die zur Bearbeitung des vorliegenden Problemtyps geeignet sind.“ Anschließend müssen diese Methoden unter Berücksichtigung der Aufgabendefinition und der Besonderheiten des Datenbestandes für das jeweilige Problem instanziiert werden. Dabei ist jedoch zu berücksichtigen, dass die Attraktivität eines komplexen Modells trotz niedriger Varianz gering ist, da sowohl die Prognosefähigkeit als auch die Verständlichkeit des Modells mit steigender Komplexität sinkt. Das Modell bildet zudem mit steigender Komplexität zunehmend datensatzspezifische Artefakte ab, welche die Generalisierungsfähigkeit des Modells in Frage stellen. „Je stärker man sich allerdings bei der Auswahl von Data-Mining-Methoden hinsichtlich der Modellkomplexität [...] beschränkt, desto größer wird die Gefahr, dass die verbleibenden Freiheitsgrade für eine zutreffende Beschreibung des Datengenerierungsprozesses nicht mehr ausreichen.“ Die optimale Modellkomplexität ist daher für jeden Einzelfall unter Berücksichtigung der individuellen Anforderungen an das Ergebnis zu bestimmen. „Die Modellevaluation überprüft, in welchem Ausmaß ein entdecktes Muster bestimmte Anforderungskriterien erfüllt.“ Dabei lässt sich die Menge der Qualitätsfunktionen, die zur Überprüfung der Anforderungskriterien herangezogen werden können, in zwei Gruppen unterteilen: Für die Evaluation der deskriptiven Akkuratheit werden verschiedene verfahrensspezifische Gütekriterien herangezogen; die Evaluation der prädiktiven Akkuratheit geschieht mit Hilfe des Evaluierungsdatensatzes; geprüft wird hier die Prognosefähigkeit des Modells. Die Suche wird unterteilt in die Parametersuche und die Modellsuche. Das Ziel der Parametersuche ist die numerische Belegung der Modellparameter. Sie stellt das Ergebnis dar, das die Anwendung einer spezifischen Data-Mining- Technik auf einen bestimmten Datenbestand liefert. Die Modellsuche hingegen modifiziert im Rahmen einer iterativen Parametersuche die Modellspezifikation. Diese Suche sollte in Interaktion mit dem Benutzer geschehen, aber auch die automatisierte Traversierung des Suchraumes ist denkbar. Die Modellsuche terminiert mit den Ergebnissen der Parametersuche, wenn die im Rahmen der Modellevaluation aufgestellten Abbruchkriterien erfüllt sind.
5.5.4 Kommunikation
In der Phase der Kommunikation sind die entdeckten Muster in eine für den Adressaten verarbeitbare Form zu bringen und über adäquate Medien zu kommunizieren. Ist der Adressat ein Computersystem, so müssen Inhalte in einer formalen Sprache, die das Zielsystem verarbeiten kann, abgebildet werden. Für Menschen können grundsätzlich sämtliche den menschlichen Sinnesorganen zugängliche, Trägermedien genutzt werden, um Inhalte zu kommunizieren, also visuelle, akustische, gustorische, haptischeund olfaktorischeMedien. Bei der Auswahl des Mediums müssen individuelle Fähigkeiten und Restriktionen des Adressaten berücksichtigt werden, aber auch die Anforderungen, welche die zu kommunizierenden Inhalte an das Trägermedium stellen. Im Regelfall werden in Data-Mining- Anwendungen visuelle Medien genutzt, insbesondere Grafiken: Denn visuelle Musterpräsentationen machen komplexe Zusammenhänge für das menschliche Gehirn oftmals schneller begreifbar. FÖRSTER und ZWERNEMANN konkretisieren den Einfluss von domänenspezifischem Wissen auf die Effizienz der Darstellungsform: Textuelle Darstellungen in Form von Zusammenfassungen, Kennzahlen oder mathematischen Funktionen bieten dabei einen optimalen Support bei einem hohen domänenspezifischen Wissen, wohingegen ohne diesem Wissen die konkrete Darstellungsform eines Beispiels vorzuziehen ist. Hierbei stellt sich die Frage, welches Kommunikationsverfahren für die Übermittlung der adressatenspezifisch aufbereiteten Inhalte geeignet ist. Zurückgegriffen werden kann hier auf Push- oder Pull-Verfahren, wobei auch regelbasierte Kombinationen aus den beiden Verfahren denkbar sind.