Drift Mining

The description of the project Drift Mining is currently available only in German.

Im klassischen Data Mining werden historische Daten untersucht, um Wissen über die Verteilung und Beziehung zwischen Variablen zu gewinnen.Eine als Concept Drift bekannte Herausforderung sind Veränderung in den Verteilungen und Beziehungen der Daten über die Zeit. Eine vielfach angewendete Strategie besteht in derwiederholten Anwendung von Mining Verfahren auf immer neueren Daten. Dieser Ansatz erfordert jedoch die Verfügbarkeit einer ausreichenden Anzahl von aktuellen Daten um ein Modell neu zu lernen oder zumindest anzupassen.

Speziell in einigen Anwendungsgebieten des überwachten Lernens, wenn Prognosen über Ereignisse in weiter Zukunft getroffen werden sollen, wie beispielsweisein der Kreditrisikoschätzung für Kredite mit langer Laufzeit, stehen jedochnur Daten zu den erklärenden Variablen zur Verfügung, nicht jedoch zu den abhängigen Variablen.

Ziel dieses Projektes ist es, diese fehlenden Daten durch Wissen über diegenaue Art von Veränderungen in den Verteilungen und Beziehungen der Variablenzu kompensieren. Hierfür werden Modelle über die Zusammenhänge von Verteilungsveränderungen (Drift) in den Variablen über die Zeit formuliert und an historischen Daten geprüft. Für dieses Drift Mining werden lediglich Daten benötigt, deren Veränderungsmuster dem aktueller Daten entsprechen,die Aktualität ihrer tatsächlichen Verteilung ist hingegen nicht kritisch.Somit können für diese Aufgabe historische Daten verwenden werden, welche für klassische Modelle,welche die Verteilung und Beziehung der Variablen direkt schätzen, nicht mehr verwendet werden können.Ein Nebenprodukt dieser Forschung ist die Entwicklung von Methoden zum besseren Verständnis von Veränderungen in den Verteilungen von Daten.

Teilaufgaben im Rahmen des Projektes sind:

  • A. Methoden zur Analyse von Drift auf einfachen und multiplen Datenströmen
  • B. Adaptive Klassifikationsstrategien für den Umgang mit Verification Latency in sich verändernden Datenströmen
  • C. Active Learning Strategien für sich verändernde Datenströme

Publications

 

 

Letzte Änderung: 01.07.2019 - Ansprechpartner: