Vorlesung Datenbionik: Knowledge Discovery
Wintersemester 2011/12
Inhalt
Knowledge Discovery behandelt das Spannungsgebiet zwischen statistischer Datenanalyse und Data Mining. Knowledge Discovery ist die Gewinnung von unbekanntem und nützlichem Wissen aus Daten, über die man wenig oder kein Vorwissen hat. Wissen entsteht aus den Informationen über die Struktur der vorliegenden Daten. Nach einer Einführung in statistische Grundbegriffe orientiert sich die Vorlesung am praktischen Ablauf der Datenanalyse. Es werden u.a. behandelt:
- Vorverarbeitung der Daten
- Clusterverfahren
- Klassifikationsverfahren
- Regelgenerierung
- Methoden zur Bewertung der Ergebnisse
Termine
- Vorlesung: Mo, 14-16 Uhr, MZ 6 Hörsaal HS III A3
- Vorlesung: Di, 14-16 Uhr, MZ 6 Hörsaal HS III A3
- Übung: Nach Vereinbarung
- Es handelt sich hierbei um eine 4+2 stündige Vorlesung. Das entspricht den Anforderungen im Regelstudienplan für Master/Bachelor-Studierende.
Terminänderungen
-
Voraussetzungen
- Grundvorlesungen in praktischer Informatik
- Statistische Grundkenntnisse sind von Vorteil aber nicht erforderlich.
Scheinkriterien
Unbenoteter Schein: Ein unbenoteter Schein wird für die aktive Mitarbeit an den Übungen erteilt. Ein ausgegebenes Übungsblatt muss in der folgenden Übung so bearbeitet worden sein, dass zu allen Aufgaben die Lösung vorgeführt werden kann. (Bei Aufgaben, die einen Programmieranteil oder die Arbeit mit Dateien umfasst, sind die entsprechend bearbeiteten Dateien auf Diskette mitzuführen.) Benoteter Schein: Ein benoteter Schein wird nach bestandener Klausur / bestandenem Kolloquium / bestandener Semesteraufgabe ausgestellt, wobei die Note des Scheins der Klausurnote / Kolloquiumsnote / Note der Semesterarbeit entspricht. Klausur / Kolloquium: Voraussetzung für die Teilnahme an der Klausur / dem Kolloquium ist die Teilnahme an den Übungen wie oben beschrieben. Bei Nichtbestehen der Klausur / des Kolloquiums wird auf Wunsch ein unbenoteter Schein ausgestellt.
Literatur und Links
- Bücher
- Hand, Mannila, Smyth: Principles of Data Mining, Bradford Book, 2001 (sehr zu empfehlen, guter Überblick über Data Mining)
- Han, Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000 (sehr umfangreich, evtl günstig weil nächstes Jahr eine neue Edition erscheint)
- Hastie, Tibshirani, Friedman: The Elements of Statistical Learning, Springer, 2001 (die statistische Seite des Data Mining, hauptsächlich überwachtes Lernen)
- Duda, Hart, Stork: Pattern Classification, Wiley & Sons, 2001 (ebenfalls hauptsächlich überwachtes lernen, Alternative zu Hastie et al.)
- Ester, Sander: Knowledge Discovery in Databases, Springer, 2000 (eines der wenigen deutschen Bücher)
- Witten, Frank: Data Mining, Hanser, 2001 (recht spezialisiert auf Regelgenerierung, in Englisch und Deutsch erhältnich)
- Hartung: Statistik, Oldenbourg, 1991 (sehr umfangreiches Nachschlagewerk zur Statistik, nur bedingt zum Erlernen geeignet)
- Statistik & Data Mining
- The Little Handbook of Statistical Practice (Gerard E. Dallal, Tufts University Boston)
- Statistical Data Mining Tutorials (Andrew Moore, Carnegie Mellon University)
- Singular Value Decomposition - A Primer
- Sonstiges
- Musical Audio Benchmark (Uni Dortmund)
Software
The R Project for Statistical ComputingTinn R: sourceforge, howto, howto2
R Kurse & Tutorien: Uni Leipzip, Uni Bielefeld
Eigene Software
dbt Databionic Tool Box

