Direkt zum Inhalt
 
 
Eine algebraische Fläche vom Grad 6 (eine "Sextik"), die 65 Singularitäten besitzt.
 
  Startseite  
 

Forschung

Forschung der AG Datenbionik

Ein grundlegendes Forschungsthema der AG Datenbionik ist der Übergang von Daten zu Wissen.

Hierbei werden aus der Natur abgeleitete Algorithmen, wie z.B. Emergente Selbst-organisierende Merkmalskarten und Artificial Life Systeme für die Selbstorganisation und Emergenz von übergeordenten Strukturen benutzt.

Mit speziellen Verfahren des Maschinellen Lernens wird aus diesen emergenten Strukturen Wissen gewonnen, welches in einer für Menschen verständlichen Sprache formuliert ist (Ultsch 1993).

Neben statischen Daten liegt ein Hauptaugenmerk auf der Beschreibung zeitlicher Phänomene in mehrdimensionalen Zeitreihen.

Anwendungsgebiete sind allgemein grössere hochdimensionale Datensammungen. Zur Zeit untersuchen wir insbesondere DNA-Microarrrays, Protein-Bindetaschen, sowie als Zeitreihen: Aktienkurse, Sportmedizin und Musik.

Selbstorganisation

Selbstorganisation ist die Fähigkeit eines Systems sich ohne gerichtete Vorgaben von außen zu ordnen. Überträgt man die Idee in den Bereich der Datenverarbeitung, so bedeutet dies, dass Daten nicht durch Vorgaben organisiert werden, sondern sich durch eine geeignete Computertechnik selbstständig organisieren. Datensätze sollen sich selbstständig zu zusammengehörigen Gruppen zusammenfinden. Weiterhin sollten solche Gruppen eine die wesentlichen Merkmale der Gruppe charakterisierende Beschreibung entwickeln.

Emergent Self-Organizing Maps

Ein bekanntes Verfahren, das die Prinzipien der Selbstorganisation nutzt, ist die Selbst-Organisierende Merkmalskarte (SOM) motiviert durch die Selbstorganisation rezeptiver Felder im menschlichen Gehirn. Die hochdimensionalen Datensätze werden, analog den Sinnesreizen auf den sensorischen Hirnkarten, sich selbst ordnend auf eine 2 dimensionalen Gitterstruktur projeziert. Um dabei Strukturen durch Emergenz sichtbar zu machen ist es von entscheidender Bedeutung, dass die Karten aus sehr viele Neuronen bestehen. Das führt zum Begriff der Emergenten SOM (Ultsch 1999), die wir bereits vielfach erfolgreich eingesetzt haben.
tiny_chainlink_esom3d
ESOM chainlink

Databionic Artificial Life

Das Databionic Artificial Life stellt einen alternativen Ansatz der Datenbionik dar, der sich weniger an der Organisation sensorischen Karten als vielmehr an den Verhaltensweisen von Lebewesen in einem Kollektiv orientiert (Ultsch 2000). Die künstlichen Lebewesen (Artificial Life Forms oder hier auch als DataBots bezeichnet) repräsentieren dabei einen Datensatz und haben ein bestimmtes Verhaltensmuster, nach dem sie mit benachbarten DataBots interagieren. Die zentrale Idee hierbei ist, dass sich kollektive Verhaltensmuster entwickeln, die mit strukturellen Eigenschaften eines hochdimensionalen Eingaberaumes übereinstimmen.
tiny_alf_comic
DataBots

Emergenz

Emergenz bedeutet das Auftauchen einer übergeordneten Struktur, die sich aus der Kooperation vieler elementarer Prozesse ergibt. Ein populäres Beispiel für eine solche emergente Struktur ist das Auftauchen einer La Ola Welle in einem Fussballstadion, die aus der Selbstorganisation vieler Menschen entstehen kann.

In unseren emergenten Systemen entstehen Distanz- und Dichtestrukturen in Datensätzen die als U-Matrix, P-Matrix oder U*Matrix betrachtet werden konnen. Aus den emergierten Strukturen können Gruppierungen (Cluster) in Datensätzen abgeleitet werden. Emergente Strukturen beschreiben das System der elementaren Prozesse auf einem neuen, übergeordneten Niveau.

Emergente Distanz- und Dichte-Strukturen: U-Matrix, P-Matrix, U*Matrix

Unsere selbstorganisierenden Modelle (ESOM und DataBots) liefern eine Anordnung der Datenpunkte auf einer Gitterstruktur. Über diesem Gitter stellt die U-Matrix (Ultsch 1993) die lokalen Distanzbeziehungen im hochdimensionalen Datenraum als 3-Dimensionale Landschaft mit Bergen und Tälern dar. Berge entsprechen dabei grossen Entferungen der Daten. Daten in einem gemeinsamen Tal gehören zusammen.
tiny_hepta_umx
tiled U-Matrix hepta
Die P-Matrix (Ultsch 2003) stellt die Dichte der Daten über dem Gitter dar. Die Dichte wird dabei unter Verwendung einer informationstheroretisch optimalen Dischteschätzung, der sog. Pareto-Dichteschätzung errechnet.
tiny_hepta_pmx
tiled P-Matrix hepta
Die U*Matrix (Ultsch 2003) kombiniert Distanz- und Dichte so dass in dichten Bereichen die Distanz zwichen Daten wenig ins Gewicht fällt. In dünn besiedelten Bereichen des hochdimensionalen Datenraumes werden die Distanzstrukturen der U-Matrix hingegen betont.
tiny_hepta_ust
tiled U*Matrix hepta

Die U*Matrix führt zu einem selbstorganisierten emergenten Clusteralgorithmus (U*C).

Die Anschaulichkeit der entstehenden Darstellungen ermöglicht auch ungeübten Betrachtern die Strukturen des an sich unanschaulichen hochdimensionalen Datenraumes direkt zu erfassen.

Wissensgewinnung

Die in der Arbeitsgruppe Datenbionik entwickelten datenbionischen Verfahren haben ihren Schwerpunkt auf der Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Databases). Hierbei geht es darum, in Datensammlungen bislang unbekanntes, nützliches und verständliches Wissen zu entdecken. Die Emergenz von Strukturen ist hierbei nur ein erster Schritt. Ein weiterer Schwerpunkt der Werkzeuge ist die Erzeugung von verständlichem Wissen, das für Menschen direkt nutzbar ist. Hierzu wurden Algorithmen entwickelt, die die emergenten Strukturen abstrakt beschreiben können (Ultsch 1991).

Die Verständlichkeit der entstanden Beschreibungen, sowie die Erzielung eines möglichst hohen Abstraktionsgrades stehen im Vordergrund. In der Regel sind die hierbei entstehenden Wissenselemente dazu geeignet, einem Experten des Gebietes einen Einblick in die im System erkannten Strukturen zu geben. An dieser Stelle kann ein Experte entscheiden ob das mit unseren Methoden gewonnene Wissen neue, bislang unbekannte Zusammenhänge enthält. Dies gilt insbesondere für temporale Muster die aus multivariaten Zeitreihen gewonnen werden (Mörchen, Ultsch 2004), (Mörchen 2006).

Zuletzt aktualisiert: 14.08.2007 · Dalmis

 
 
 
Fb. 12 - Mathematik und Informatik

Datenbionik (AG Ultsch), Hans-Meerwein-Straße 6, D-35032 Marburg
Tel. +49 6421/28-22185, Fax +49 6421/28-28902, E-Mail: databionics@informatik.uni-marburg.de

URL dieser Seite: https://www.uni-marburg.de/fb12/arbeitsgruppen/datenbionik/forschung

Impressum | Datenschutz