STATISTIK-FORUM.de

PPaul · von **PPaul** » Do 4. Aug 2016, 17:41

Hallo zusammen,

ich bin neu hier und freue mich darauf mit euch zusammen ein paar der Fragen der Statistik zu klären.
Da ich aktuell an einer Clusteranalyse arbeite, mir aber über den weiteren Weg und einige Details unsicher bin, versuche ich meine Fragen in diesem Forum zu klären.

Mein Datensatz besteht aus 68 Fällen (N) die durch 19 Variablen mehr oder weniger beschrieben werden. In einem ersten Schritt habe ich eine PCA durchgeführt, die die Anzahl meiner Variablen von anfangs über 40 auf 19 verringert hat. Nun stehe ich vor der Aufgabe meine 68 Fälle in Cluster einzuteilen, um ihre Abstammung genauer zu bestimmen.
Hierfür habe ich mittels einer Ward-Analyse eine erste Idee für eine Clusterung (4 bzw. 5-Cluster Lösung) bekommen. Um diese Clusterung zu optimieren ist die Durchführung einer k-Means-Analyse geplant. Nun zu meinen Fragen:
(0.) Ist dieses Vorgehen sinnvoll?
1. Kann ich aus den SPSS Ergebnissen der Wardanalyse irgendwie die bisherigen Clusterzentren (für k-means) entnehmen, wenn ja wie?
2. Wenn nein, wie sieht das beste Vorgehen zur Bestimmung von Clusterzentren aus? Leider finde ich die an SPSS angelehnte Literatur hierzu eher bescheiden.

Beste Grüße

Institut_Zwei · von **Institut_Zwei** » So 7. Aug 2016, 20:23

PPaul hat geschrieben:Hallo zusammen,

Hallo, Paul.
Clusteranalyse ist mein Schwepunkt. ich kenne die Wardmehtode besonders gut, weil ich diese generalisiert habe. Auch die k-Means ist mir sehr gut bekannt, auch mit ihr arbeitete ich viel. Ihre Frage ist recht einfach.

PPaul hat geschrieben:Hierfür habe ich mittels einer Ward-Analyse eine erste Idee für eine Clusterung (4 bzw. 5-Cluster Lösung) bekommen. Um diese Clusterung zu optimieren ist die Durchführung einer k-Means-Analyse geplant. Nun zu meinen Fragen:
(0.) Ist dieses Vorgehen sinnvoll?

Soweit Sie unter "Optimieren" weitere quantitative untersuchung meinen, um noch mehr Ideen zu sammeln: ja, das halte ich für sinnvoll.

PPaul hat geschrieben:1. Kann ich aus den SPSS Ergebnissen der Wardanalyse irgendwie die bisherigen Clusterzentren (für k-means) entnehmen, wenn ja wie?

Das können Sie in der Tat, z.B. die durchschnittswerte der jeweiligen Cluster aus Ward-Analyse mit jeweiliger Clusterzahl. Allerdings ist das nicht norwendig, denn k-Means kann mit beliebigen Centroiden anfangen. Manchmal geht eine oder andere Interaktion in eine Schleife und führt zu unsinnigen Ergebnissen, egal ob mit zufälligen oder von vorangegangener Ward-Analyse gelieferten Centoiden. Um die k-Means ergebnisse zu beeinflüßen, sollte man das interpretativ rechtfertigen.
Sofern Sie bei Ihrer Frage nicht die Clusterzentreneigenschaften sondern die Anzahl der Cluster meinen - ich würde alle 4 und 5 ausprobieren und zusätlich auch noch 3 und 6 und mir überlegen, ob das eine oder das andere sich besser für Ihre Zwecke interpretieren ließe.

PPaul hat geschrieben:2. Wenn nein, wie sieht das beste Vorgehen zur Bestimmung von Clusterzentren aus?

Sofern Sie "beste" als "technisch einfachste" für K-means meinen - gar nicht. K-Means macht alles selber.
Sofern die Frage allgemein ist - da gibt es unterschiedliche Herangehensweisen. In Abhähgigkeit von Ihrer Theorie, für die Sie die Clusteranalyse machen und in Abhängigkeit von Ihrem "Material" würde sich eine oder andere Clusterungmethode empfehlen, manchmal auch zwei.

PPaul hat geschrieben:Leider finde ich die an SPSS angelehnte Literatur hierzu eher bescheiden.
Beste Grüße

Komisch... was meinen Sie unter "Abstammung" ? Sind Sie ein Biometriker? Die Biometrie arbeitet mit Clusteranalyse durchaus viel. Oder Ökonometrie? Die Ökonometriker und Politologen haben zur Clusteranalyse meines Wissens nach tatsächlich wenig guter Literatur.

folgende User möchten sich bei Institut_Zwei bedanken:
PPaul

PPaul · von **PPaul** » Do 11. Aug 2016, 17:08

Hallo,

und danke für die ersten Hinweise!

Institut_Zwei hat geschrieben:Soweit Sie unter "Optimieren" weitere quantitative untersuchung meinen, um noch mehr Ideen zu sammeln: ja, das halte ich für sinnvoll.

Unter optimieren verstehe ich in dem Fall eher die Verbesserung der Zuordnung der jeweiligen Fälle (N) zu den Clustern - daher auch meine Zweistufige Analyse (Ward + k-Means). Auch wenn die Frage im Generellen sehr schwierig klingt, aber welche weiteren Ideen kann ich denn noch sammeln?

Institut_Zwei hat geschrieben:Das können Sie in der Tat, z.B. die durchschnittswerte der jeweiligen Cluster aus Ward-Analyse mit jeweiliger Clusterzahl. Allerdings ist das nicht norwendig, denn k-Means kann mit beliebigen Centroiden anfangen. Manchmal geht eine oder andere Interaktion in eine Schleife und führt zu unsinnigen Ergebnissen, egal ob mit zufälligen oder von vorangegangener Ward-Analyse gelieferten Centoiden. Um die k-Means ergebnisse zu beeinflüßen, sollte man das interpretativ rechtfertigen.
Sofern Sie bei Ihrer Frage nicht die Clusterzentreneigenschaften sondern die Anzahl der Cluster meinen - ich würde alle 4 und 5 ausprobieren und zusätlich auch noch 3 und 6 und mir überlegen, ob das eine oder das andere sich besser für Ihre Zwecke interpretieren ließe.

Die k-Means Analyse habe ich nun einmal mit und (auf ihr anraten) ohne Centroiden für 3 bis 6 Clusterlösungen durchgeführt. Die Vielzahl an Informationen die ich nun erhalten habe, machen das bewerten der jeweiligen "korrekten" Clusteranzahl jedoch schwer. Nach welchen Ausgabegrößen aus SPSS kann ich denn, neben dem Gesichtspunkt der inhaltlichen Interpretation, meine Clusterlösungen bewerten, z.B.:

Clusterzugehörigkeit,
ANOVA (hohe F-Werte und niedrige Signifikanzen, df),
Distanz zwischen Zentren der Clusterlösungen

?

Unter der ANOVA findet sich ebenfalls ein Absatz, dass diese Werte nicht als Test für die Hypothese der Gleichheit dienen können, da die betrachteten Signifikanzniveaus nicht korrigiert werden. Wie kann man dies mit SPSS anpassen?

Komisch... was meinen Sie unter "Abstammung" ?

Unter Abstammung verstehe ich so etwas wie auf Variablen basierende Zuordnung. Meine Clusteranalyse soll die bestehende theroretische Zuordnung von Fällen verdeutlichen - Zuordnung definiert es demnach genauso.

PPaul hat geschrieben:Leider finde ich die an SPSS angelehnte Literatur hierzu eher bescheiden.
Beste Grüße

Sind Sie ein Biometriker? Die Biometrie arbeitet mit Clusteranalyse durchaus viel. Oder Ökonometrie? Die Ökonometriker und Politologen haben zur Clusteranalyse meines Wissens nach tatsächlich wenig guter Literatur.

Ich arbeite im Bereich der energietechnischen Ingenieurwissenschaften, näherliegende Literatur ist da meist sehr selten.

Beste Grüße
Paul

STATISTIK-FORUM.de

Ward mit anschließender k-Means-Analyse

Ward mit anschließender k-Means-Analyse

Re: Ward mit anschließender k-Means-Analyse

Re: Ward mit anschließender k-Means-Analyse

Wer ist online?