Direkt zum Inhalt
 
 
Eine algebraische Fläche vom Grad 6 (eine "Sextik"), die 65 Singularitäten besitzt.
 
  Startseite  
 

Emergente Selbst-Organisierenden Merkmalskarten (ESOM)

Die von Kohonen entwickelten Selbst-Organisierenden Merkmalskarten (SOM) sind motiviert durch die Selbstorganisation rezeptiver Felder im menschlichen Gehirn. Hochdimensionalen Datensätze werden sich selbst ordnend auf eine 2-dimensionale Gitterstruktur projeziert. Um dabei Strukturen durch Emergenz sichtbar zu machen ist es von entscheidender Bedeutung, dass die Karten aus sehr vielen Neuronen bestehen. Das führt zum Begriff der Emergenten SOM (Ultsch 1999), die wir bereits vielfach erfolgreich eingesetzt haben.

Training

Eine Emergente SOM besteht aus einer nierdrigdimensionalen Gitterstruktur bei der jedem Knoten (oder Neuron) ein Prototyp im hochdimensionalen Datenraum zugeordnet ist. Die Prototypen werden zufällig initialisiert. Beim Training der Karte werden die Datensätze sukzessive auf das Gitter projeziert, indem zu jedem Datenvektor der nächste Prototyp gesucht wird. Dieser Prototyp und die auf dem Gitter benachbarten Prototypen werden nun in Richtung des Datensatzes geändert. Durch viele Wiederholungen mit langsam sinkender Größe der Nachbarschaft auf dem Gitter entsteht eine topologieerhaltende Abbildung des Datenraums in den Kartenraum.

Topologie

Um eine vom Menschen erfassbare Visualisierung zu erhalten werden in der Regel 2-dimensionalen Gitter verwendet. Die Neuronen können dabei in einer Quad-Gitter oder Hex-Gitter Anordnung liegen. Wir verwenden üblicherweise randlose Karten, d.h. der obere Rand ist mit dem unteren und der rechte mit dem linken verbunden. So verhindert man Randeffekte, bei denen Gruppen in den Daten nur auf den Kartenrand projeziert werden und die Kartenmitte größtenteils leer ist.



tiny_esom_grid_rectQuad-Gitter tiny_esom_grid_hexaHex-Gitter tiny_esom_top_planarplanare Topologie mit Rand tiny_esom_top_toroidtoroide randlose Topologie

Visualisierung


Die reine Darstellung der Positionen von Datensätzen im Kartenraums ist oft ungenügend zur Erkennung von Strukturen, weil die hochdimensionalen Distanzen verzerrt dargestellt sind. Jeweils auf dem Gitter benachbarte Neuronen können im Datenraum durchaus sehr unterschiedlich voneinander entfertn sein. Die U-Matrix (Ultsch 1993) stellt die lokalen Distanzbeziehungen im hochdimensionalen Datenraum als 3-dimensionale Landschaft mit Bergen und Tälern dar. Berge entsprechen dabei grossen Entfernungen der Daten. Daten in einem gemeinsamen Tal gehören zusammen. Das nebenstehende Bild zeigt die U-Matrix des hexa Datensatzes mit 6 klar getrennten Gruppen. tiny_hexa_umx
  tiled U-Matrix hexa
Die P-Matrix (Ultsch 2003) stellt die Dichte der Daten über dem Gitter dar. Die Dichte wird dabei unter Verwendung einer informationstheroretisch optimalen Dischteschätzung, der sog. Pareto-Dichteschätzung errechnet. Die U*-Matrix (Ultsch 2003) kombiniert Distanz- und Dichte so dass in dichten Bereichen die Distanz zwischen Daten wenig ins Gewicht fällt. In dünn besiedelten Bereichen des hochdimensionalen Datenraumes werden die Distanzstrukturen der U-Matrix hingegen betont. Das nebenstehende Bild zeigt die P-Matrix des hepta Datensatzes, bei dem ein Cluster eine höhere Dichte (dunkel) als die anderen besitzt.  tiled P-Matrix heptatiny_hepta_pmx
Bei der Verwendung von randlosen ESOM sollte man die Visualisierungen in einer gekachelten (tiled) Ansicht darstellen. Dabei wird die Karte viermal dargestellt. Die entstehende Redundanz kann man durch eine Inselansicht beheben. Dabei wird aus der gekachelten Ansicht eine Insel ausgeschnitten die jeden Gitterpunkt der Karte genau einmal darstellt. Die Darstellung als interaktive 3D Landschaft erzeugt eine intuitive Visualisierung der Daten als Landschaft, wie in diesem animierten Beispiel.  hexa U-Matrix island hexahexa_imx
 

Beispiel

 
Die folgenden Bilder zeigen eine ESOM Clusterung des chainlink Datensatzes. Der Datensatz ist für viele herkömmliche Clusterverfahren sehr schwierig bzw. unmöglich korrekt zu clustern, weil die 2 Gruppen im 3-dimensionalen Raum ineinander verschränkt sind. Die nichtlineare Projektion mittels ESOM kann die beiden Ringe jedoch trennen.  chainlinkchainlink_3d
Nach erfolgtem ESOM Training hat sich die Karte im Datenraum an die Datenwolken angeschmiegt. In Bereichen mit vielen Daten liegen auch viele Prototypen, dazwischen liegen nur sehr wenige Prototypen. Die Karte ist in diesen Übergängen extrem gedehnt, was zu grossen Distanzen von auf der Karte benachbarten Prototypen führt.  ESOM chainlinkchainlink_esom3d
Die U-Matrix macht diese Distanzstrukturen sichtbar. Die Einfärbung der auf die Karte projezierten Datensätze zeigt eine klare Trennung der in Tälern liegenden 2 Gruppen durch Bergzüge.  tiled U-Matrix chainlinktiny_chainlink_umx
 

Software

 
Im Rahmen einer Projektgruppe wurde bei uns die Databionics ESOM Tools, ein Softwarepaket für Training, Visualisierung und interaktiver Analyse von ESOM, entwickelt.

Zuletzt aktualisiert: 29.03.2007 · Dalmis

 
 
 
Fb. 12 - Mathematik und Informatik

Datenbionik (AG Ultsch), Hans-Meerwein-Straße 6, D-35032 Marburg
Tel. +49 6421/28-22185, Fax +49 6421/28-28902, E-Mail: databionics@informatik.uni-marburg.de

URL dieser Seite: https://www.uni-marburg.de/fb12/arbeitsgruppen/datenbionik/forschung/esom/index_html/view

Impressum | Datenschutz