Direkt zum Inhalt
 
 
Eine algebraische Fläche vom Grad 6 (eine "Sextik"), die 65 Singularitäten besitzt.
 
  Startseite  
 

Pareo Dichte Schätzung (Pareto Density Estimation)

Die Untersuchung des Informationsgehaltes (Entropie) von Teilmengen führte zum Begriff der informationsoptimalen Menge (Ultsch 2001). Dies ist eine möglichst kleine Teilmenge, welche möglichst viel Information enthält. Es zeigte sich dass die Grösse der informationsoptimalen Menge mit der bekannten Pareto 80/20 Regel vereinbar ist.

Das an sich schwierige Problem der empirischen Schätzung der Dichte von Daten wird durch die Verwendung von informationsoptimalen Mengen in Form der Pareto Density Estimation (PDE) gelöst (Ultsch 2003).

Für eindimensionale Daten zeigte sich, dass die PDE ein optimaler Schäzer für Wahrscheinlichkeitsdichten von Mischungen von Gauss-verteilten Daten darstellt.

Das nebenstehende Bild zeigt eine PDE Dichteschätzung für DNA Microarray Daten von Mäusen. Zwei Arten von Proben (aus dem Gehirn und der Leber) können bereits auf Grund der PDE klar unterschieden werden.

pde_mouse

Pareto Density Esimation

Für mehrdimenstionale Daten liefert die PDE eine Dichteschätzung, die speziell für die Entdeckung von Clustern geeignet ist (Ultsch 2004). Die mehrdimensionale PDE wird auch zur Visualisierung von Emergenten SOM in Form der P-Matrix verwendet.

Die beiden folgenden Bilder zeigen den Vorteil einer zweidimensionalen PDE im Gegensatz zum üblichen Scatterplot am Beispiel von DNA Microarray Daten. Die Dichtestrukturen zeigen zwei Modi die im Scatterplot nicht sichtbar sind.

small_dna_scatter small_pde_scatter



Zuletzt aktualisiert: 29.03.2007 · Dalmis

 
 
 
Fb. 12 - Mathematik und Informatik

Datenbionik (AG Ultsch), Hans-Meerwein-Straße 6, D-35032 Marburg
Tel. +49 6421/28-22185, Fax +49 6421/28-28902, E-Mail: databionics@informatik.uni-marburg.de

URL dieser Seite: https://www.uni-marburg.de/fb12/arbeitsgruppen/datenbionik/forschung/paretoden

Impressum | Datenschutz