Clustering Problem - finde kein passendes Verfahren - Hilfe

Alles rund um Clusteranalysen.

Clustering Problem - finde kein passendes Verfahren - Hilfe

Beitragvon Willy » Mi 28. Nov 2012, 23:35

Hallo Leute,

Ich habe ein relativ kompliziertes Clustering Problem und finde kein geeignetes Verfahren, deshalb dachte ich, dass ich mal in einem Forum frage. Ich hoffe ihr könnt mir helfen.

Folgende Anforderungen:

Ab 16 Dimensionen aufwärts (weiß noch nicht wie viele genau)
Viele Millionen Datensätze (Punkte im X-Dimensionalen Raum)
Die Anzahl der Cluster ist unbekannt
Es kommen ständig neue Datensätze dazu (immer wenn das passiert sollten nicht alle datensätze neu gelustert werden müssen)
Es gibt viele Datensätze die gar keinem Cluster zugeordnet werden können(Es sollen also nicht alle Datensätze zwangsläufig in einem Cluster landen)
Die Daten sind vermutlich normalverteilt

Folgende Clusterverfahren hab ich schon in Betracht gezogen

Hierarchische Clusteranalyse (Dauert vermutlich recht lange, man braucht immer alle Datensätze (nicht nur die neuen))
k-Means (kenne die Anzahl der Cluster nicht, Es werden immer alle Datensätze geclustert)
GMM (kenne die Anzahl der Cluster nicht)
selbstorganisierende Karten (dauert wohl auch recht lange, es werden immer alle Datensätze benötigt)

Kann mir jemand einen Tipp geben?

MfG
Willy
Willy
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 28. Nov 2012, 22:37
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Clustering Problem - finde kein passendes Verfahren - Hi

Beitragvon Willy » Do 10. Jan 2013, 00:02

Nur so zur Info wollt ich erwähnen, dass ich mittlerweise selbst eine Lösung gefunden habe. Sie ist nicht perfekt aber hinreichend. Das Ganze basiert auf einer GMM die man trainiert. Hab nicht viel dazu gefunden nur ein paar Stichpunkt. Es basiert darauf, dass man mit einer großen Gaussian beginnt die man iterativ aufteilt, EM Trainingmacht und wieder kombiniert. Das Ganze so lange bis sich nichts mehr ändert.

Das Thema ist damit erledigt.

MfG
Willy
Willy
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 28. Nov 2012, 22:37
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast