Der CRISP Data-Mining-Prozess

Wie funktioniert Data Mining? 
Bei der Ermittlung und Extraktion von Daten werden in der Regel verschiedene Algorithmen bzw. Methoden aus den Bereichen Statistik, Mathematik und Informatik angewandt. Durch die automatisierte Durchführung ist Data Mining im Gegensatz zu manuellen Auswertungen mit Hilfe von Tabellenkalkulationsprogrammen deutlich zeiteffizienter.
Zur Durchführung von Data Mining Projekten wurde bereits im Jahr 1996 durch die Unternehmen DaimlerChrysler, IBM SPSS und NCR ein Vorgehensmodell entwickelt. Das sogenannte CRISP-DM (Cross Industry Standard Process for Data Mining) wurde dann im Jahr 2000 zum Standard-Prozess-Modell erklärt. Die Projekte werden hierbei in sechs Phasen strukturiert.

In der ersten Phase Business Understanding (Aufgabendefinition) wird definiert, welches Problem mit Hilfe von Data Mining gelöst werden soll und ob der Einsatz eines solchen Tools wirtschaftlich ist.

Im Anschluss an die klare Problemdefinition wird in der zweiten Phase Data Understanding (Datenverständnis) überprüft, welche Datenquellen genutzt werden sollen, inwiefern die entsprechenden Daten vorhanden sind und die Datenqualität bewertet. Wenn in dieser Phase keine Daten zur Verfügung stehen muss unter Umständen das Ziel in der ersten Phase nochmal angepasst werden.

In der dritten Phase Data Preparation (Datenaufbereitung) folgt die Sichtung der Daten bzw. Datentransformation. Dieser Schritt ist in der Regel sehr aufwendig, da die Daten in einer sehr guten Qualität für die Modellierung vorliegen müssen.

Erst in der vierten Phase Modeling (Auswahl und Anwendung von Data Mining Methoden) werden dann spezifische Algorithmen eingesetzt und überprüft inwiefern die Modelleinstellungen passen. Wenn das Modell nicht die erforderlichen Kriterien erfüllt, müssen die Daten in der dritten Phase nochmals angepasst werden.

Anschließend werden die Resultate in der fünften Phase Evaluation (Bewertung und Interpretation der Ergebnisse) bewertet. Sollte das Modell nicht dem in der ersten Phase definierten Ziel entsprechen, muss dies gegebenenfalls angepasst werden oder ein neues Ziel formuliert werden.

Zuletzt wird in der sechsten Phase Deployment (Anwendung der Ergebnisse) das Modell in Aktion genommen. In diesem Prozessschritt werden die Daten regelmäßig neu bewertet und daraufhin Scores berechnet, Ergebnisse mitgeteilt, Wahrscheinlichkeiten berechnet oder bestimmte numerische Werte vorhersagt, die für Optimierungsmaßnahmen genutzt werden können. Zudem wird in dieser Phase auch laufend überprüft, ob das Modell noch die notwendige Qualität aufweist.

Der gesamte Prozess ist als Kreislauf strukturiert, d. h. es handelt sich hierbei um einen iterativen Prozess und es muss stetig überprüft werden, ob die Annahmen und Vorgaben noch passen und diese gegebenenfalls angepasst werden.

Beispiel

Data Mining findet insbesondere in der Finanzbranche vielfältige Anwendungsmöglichkeiten. Bei Banken kann es eingesetzt werden, um auffällige Transaktionen an ausländische Adressaten zu identifizieren oder gezielt Kundenansprachen in Abhängigkeit von ihrer finanziellen Situation durchzuführen. Weniger vermögende Kunden werden beispielsweise öfter auf Konsumentenkredite angesprochen, weil sie vermeintlich mehr als wohlhabende Kunden auf solche Finanzprodukte angewiesen sind.

Was ist Data Blending?
Data Blending bezeichnet das Zusammenführen, Bearbeiten und die Analyse von Daten aus verschiedenen Quellen mit den internen Daten aus einem Data Warehouse. Das Ziel von Data Blending ist es, durch die Verknüpfung eine ganzheitliche Sicht auf die Datenbestände zu ermöglichen.
In den sozialen Medien werden beispielsweise häufig Bewertungen zu neuen Produkten abgegeben. Diese Daten werden über eine spezifische Auswertung in das Data Warehouse überführt und anschließend mit den Verkaufszahlen für die neuen Produkte verknüpft. Ein Unternehmen kann mit diesen Informationen den Forecast für die zukünftigen Verkaufszahlen erstellen

Um unsere Webseite für Sie optimal zu gestalten und fortlaufend verbessern zu können, verwenden wir Cookies. Weitere Informationen finden Sie in unserer Datenschutzerklärung.
Seite drucken