Emergente Selbst-Organisierenden Merkmalskarten (ESOM)
Die von Kohonen entwickelten Selbst-Organisierenden Merkmalskarten (SOM) sind motiviert durch die Selbstorganisation rezeptiver Felder im menschlichen Gehirn. Hochdimensionalen Datensätze werden sich selbst ordnend auf eine 2-dimensionale Gitterstruktur projeziert. Um dabei Strukturen durch Emergenz sichtbar zu machen ist es von entscheidender Bedeutung, dass die Karten aus sehr vielen Neuronen bestehen. Das führt zum Begriff der Emergenten SOM (Ultsch 1999), die wir bereits vielfach erfolgreich eingesetzt haben.
Training
Eine Emergente SOM besteht aus einer nierdrigdimensionalen Gitterstruktur bei der jedem Knoten (oder Neuron) ein Prototyp im hochdimensionalen Datenraum zugeordnet ist. Die Prototypen werden zufällig initialisiert. Beim Training der Karte werden die Datensätze sukzessive auf das Gitter projeziert, indem zu jedem Datenvektor der nächste Prototyp gesucht wird. Dieser Prototyp und die auf dem Gitter benachbarten Prototypen werden nun in Richtung des Datensatzes geändert. Durch viele Wiederholungen mit langsam sinkender Größe der Nachbarschaft auf dem Gitter entsteht eine topologieerhaltende Abbildung des Datenraums in den Kartenraum.
Topologie
Um eine vom Menschen erfassbare Visualisierung zu erhalten werden in der Regel 2-dimensionalen Gitter verwendet. Die Neuronen können dabei in einer Quad-Gitter oder Hex-Gitter Anordnung liegen. Wir verwenden üblicherweise randlose Karten, d.h. der obere Rand ist mit dem unteren und der rechte mit dem linken verbunden. So verhindert man Randeffekte, bei denen Gruppen in den Daten nur auf den Kartenrand projeziert werden und die Kartenmitte größtenteils leer ist.Visualisierung
| Die reine Darstellung der Positionen von Datensätzen im Kartenraums ist oft ungenügend zur Erkennung von Strukturen, weil die hochdimensionalen Distanzen verzerrt dargestellt sind. Jeweils auf dem Gitter benachbarte Neuronen können im Datenraum durchaus sehr unterschiedlich voneinander entfertn sein. Die U-Matrix (Ultsch 1993) stellt die lokalen Distanzbeziehungen im hochdimensionalen Datenraum als 3-dimensionale Landschaft mit Bergen und Tälern dar. Berge entsprechen dabei grossen Entfernungen der Daten. Daten in einem gemeinsamen Tal gehören zusammen. Das nebenstehende Bild zeigt die U-Matrix des hexa Datensatzes mit 6 klar getrennten Gruppen. | tiled U-Matrix hexa
|
| Die P-Matrix (Ultsch 2003) stellt die Dichte der Daten über dem Gitter dar. Die Dichte wird dabei unter Verwendung einer informationstheroretisch optimalen Dischteschätzung, der sog. Pareto-Dichteschätzung errechnet. Die U*-Matrix (Ultsch 2003) kombiniert Distanz- und Dichte so dass in dichten Bereichen die Distanz zwischen Daten wenig ins Gewicht fällt. In dünn besiedelten Bereichen des hochdimensionalen Datenraumes werden die Distanzstrukturen der U-Matrix hingegen betont. Das nebenstehende Bild zeigt die P-Matrix des hepta Datensatzes, bei dem ein Cluster eine höhere Dichte (dunkel) als die anderen besitzt. | tiled P-Matrix hepta |
| Bei der Verwendung von randlosen ESOM sollte man die Visualisierungen in einer gekachelten (tiled) Ansicht darstellen. Dabei wird die Karte viermal dargestellt. Die entstehende Redundanz kann man durch eine Inselansicht beheben. Dabei wird aus der gekachelten Ansicht eine Insel ausgeschnitten die jeden Gitterpunkt der Karte genau einmal darstellt. Die Darstellung als interaktive 3D Landschaft erzeugt eine intuitive Visualisierung der Daten als Landschaft, wie in diesem animierten Beispiel. | hexa U-Matrix island hexa |
Beispiel |
|
| Die folgenden Bilder zeigen eine ESOM Clusterung des chainlink Datensatzes. Der Datensatz ist für viele herkömmliche Clusterverfahren sehr schwierig bzw. unmöglich korrekt zu clustern, weil die 2 Gruppen im 3-dimensionalen Raum ineinander verschränkt sind. Die nichtlineare Projektion mittels ESOM kann die beiden Ringe jedoch trennen. | chainlink |
| Nach erfolgtem ESOM Training hat sich die Karte im Datenraum an die Datenwolken angeschmiegt. In Bereichen mit vielen Daten liegen auch viele Prototypen, dazwischen liegen nur sehr wenige Prototypen. Die Karte ist in diesen Übergängen extrem gedehnt, was zu grossen Distanzen von auf der Karte benachbarten Prototypen führt. | ESOM chainlink |
| Die U-Matrix macht diese Distanzstrukturen sichtbar. Die Einfärbung der auf die Karte projezierten Datensätze zeigt eine klare Trennung der in Tälern liegenden 2 Gruppen durch Bergzüge. | tiled U-Matrix chainlink |
Software |
|
| Im Rahmen einer Projektgruppe wurde bei uns die Databionics ESOM Tools, ein Softwarepaket für Training, Visualisierung und interaktiver Analyse von ESOM, entwickelt. |

