Seite 1 von 1

Extrem unterschiedliche Clusterbesetzung. Was kann ich tun?

BeitragVerfasst: Mi 27. Aug 2014, 10:40
von Jörg88
Hallo, ich brauche dringend mal Eure Hilfe in Sachen Statistik, da ich wirklich gerade am absoluten Tiefpunkt bin und gar nicht mehr weiter weiß :( .

Ich habe also eine Hierarchische Clusteranalyse durchgeführt. Da die Testvariablen unterschieliche Skalenniveaus hatten, habe ich sie alle in dichotome Variablen umgeformt, das Skalenniveau entsprechend auch in der Methodik eingegeben und auch die jeweiligen beiden Werte (0/1). Anschließend habe ich die Clusteranalyse durchgeführt und als optimale Clusteranzahl die 3 ermitteln können. Bei einer Cluserung mit 3 Clustern waren allerdings 145 meiner 150 Fälle dem ersten Cluster zugeordnet, dem zweiten bloß 3 und dem 3. zwei. So ein Mist!

Ich habe es daraufhin probeweise auch mit anderen Clusteranzahlen versucht- das Ergebnis blieb vergleichbar: Immer waren fast alle Fälle dem einen Cluster zugeordnet.

Um auszuschließen, dass es vielleicht an meiner Variablenumformung liegt, habe ich sogar erneut eine Clusteranalyse durchgeführt und ausschließlich die intervallskalierten Ursprungsvariablen genommen.Auch hier wieder ein fast identisches Ergebnis.

Auch eine vorgeschaltete Faktorenanalyse ergab wieder so eine saublöde Verteilung. Ich scheine also irgendetwas falsch zu machen- nu weiß ich beim besten Willen nicht was, denn eigentlich habe ich schon öfters Clusteranalysen durchgeführt und noch nie ein derartiges Problem gehabt.

Wisst Ihr vieleicht, woran das liegen kann bzw. wie ich mir jetzt helfen kann? Denn meine Gruppierung kann ich ja nun, so wie sie im Moment ist, in die Tonne klopfen...

Bin über jeden hilfreichen Hinweis sehr dankbar!!!

Re: Extrem unterschiedliche Clusterbesetzung. Was kann ich t

BeitragVerfasst: Mi 27. Aug 2014, 11:56
von bele
Hi Jörg,

wieso musst Du bei einer hierarchischen Clusteranalyse die Zahl der Cluster vorgeben? Im Gegensatz zu Deinen früheren Clusteranalysen sind diesmal halt die Werte so verteilt, dass sich im Groben 3 Cluster ergeben. Warum das Mist ist und in die Tonne geklopft gehört, dazu hast Du nichts gesagt/geschrieben. Vielleicht sind Deine Daten ja so beschaffen, dass man diese 5 Werte als Ausreißer/Extremfälle klassifizieren will und über den Rest von 145 erneut eine Clusteranalyse laufen lässt (nicht, dass das bei einer hierarchischen Clusteranalyse nötig wäre, aber Du weißt bestimmt, was ich meine).

LG,
Bernhard

Re: Extrem unterschiedliche Clusterbesetzung. Was kann ich t

BeitragVerfasst: Mi 27. Aug 2014, 13:57
von Jörg88
Hi Bernhard,

danke für Deine schnelle Antwort.
Ja, blöd eben deshalb,weil ich natürlich gern 3 Cluster gehabt hätte mit einer möglichst vegleichbaren Anzahl von Fällen. Denn so habe ich ja im Grunde gar nichts gekommt, weil ja sozusagen fast alle Fäll ein Cluster sind und ich keine differenzierten Gruppen habe, wie es ursprünglich geplant war. Deshalb empfinde iches auch als absolut unzufriedenstellen dund komme jetzt auch überhaupt nicht weiter :?

Meinst Du, es könnte an Ausreißern liegen? Denn eigetlich habe ich doch dichotome Variablen verwendet. Da ist das doch ausgeschlossen.
Wobei ich Deine Idee, diese wenigen "Ausreißer" einfach auszuklammer gar nicht schlecht finde. Es wäre zumindest einen Versuch wert!

und wegen der Clusteranzahl: die habe ich anhand der Zuordnungsübersicht ermittelt (also Stelle, wo die Koeeffizienten sprunghaft erhöht haben- was im Elbow-Diagramm also sozusagen der "knick ist ;) ). Nur, wie gesagt, selbst wenn ich eine andere Clusteranzahl (z. B.5 oder 6) nehme, kommt immer nur wieder ein Riesen-Cluser heraus und dann einige andere mit ganz wenigen Fällen. Wirklich seltsam...

Brauche jetzt eben dringend eine Lösung. Meinst Du, ich habe vielleicht zu viele Variablen in die Analyse eingebunden, dass es daran liegt?

Lg,
Jörg

Re: Extrem unterschiedliche Clusterbesetzung. Was kann ich t

BeitragVerfasst: Mi 27. Aug 2014, 16:26
von strukturmarionette
Hi,

welche Distanzmaße und welche Clusterverfahren wendest Du an?
Bei wievielen Varablen?

Gruß
S.

Re: Extrem unterschiedliche Clusterbesetzung. Was kann ich t

BeitragVerfasst: Fr 29. Aug 2014, 10:03
von Jörg88
Ich habe insgesamt 30 Variablen (ohne vorgeschaltete Faktorenanalyse) und mit 8. Sind vielleicht zu viele oder?

Als Distanzmaß habe ich "quadrierter euklidischer Abstand" bei binärem Skalenniveau gewählt. Ist das so richtig oder würdest Du mir vielleicht etwas anderes empfehlen? Wäre d über jeden Hinweis echt dankbar! ;)