Hierarchische Clusteranalyse auf Prozentverteilung

Alles rund um Clusteranalysen.

Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Obidamn » Mo 30. Mai 2016, 12:41

Hallo zusammen,

ich möchte eine hierarchische Clusteranalyse durchführen. Es liegen Daten als Prozentverteilung vor. D.h. konkret, 6 Items sollten hinsichtlich ihrer Wichtigkeit eingeschätzt werden, wobei Prozentwerte vergeben wurden, die sich über alle 6 Items hinweg auf 100% summieren.
Das würde für mich doch heißen, ich müsste als Distanzmaß das Chi2-Maß auswählen, richtig? Oder kann ich so eine Verteilung einfach, wie für metrische Daten üblich, mit dem quadrierten euklidischen Distanzmaß rechnen?
Da mit Chi2 jedoch geprüft wird, ob die Verteilung zwischen 2 Fällen aus der gleichen Grundgesamtheit kommt, bin ich ziemlich sicher, dass dies in diesem Falle das richtige Proximitätsmaß ist.
Wenn ich nun Chi2 wähle, erhalte ich eigentlich nur mit der Ward-Methode sinnvolle Ergebnisse (gleiche Ergebnisse mit Phi2). Mit Average Linkage kommt leider keine ordentliche Lösung heraus.
Unter Verwendung der Ward-Methode in Verbindung mit Chi2 wirft SPSS allerdings eine Warunung aus: "Das quadrierte euklidische Distanzmaß sollte verwendet werden, wenn die Cluster-Methoden CENTROID, MEDIAN oder WARD gewünscht sind."

Kurzum:
1. Ist das Proximitätsmaß für diese Daten richtig, oder kann/sollte ich mit der quadrierten euklidischen Distanz rechnen?
2. Ist es ein Fehler, die Clusteranalyse unter Verwendung der Ward-Methode in Verbindung mit dem Chi2-Maß zu rechnen?

Bin dankbar für jegliche Lösungsvorschläge!

Beste Grüße
Obidamn
Obidamn
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 22. Jun 2014, 11:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon PonderStibbons » Mo 30. Mai 2016, 13:01

Das würde für mich doch heißen, ich müsste als Distanzmaß das Chi2-Maß auswählen, richtig?

Nein, wieso? Und wie soll das praktisch durchgeführt werden? Du hast doch gar keine Häufigkeiten.
Oder kann ich so eine Verteilung einfach, wie für metrische Daten üblich, mit dem quadrierten euklidischen Distanzmaß rechnen?

Liegt nahe.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11250
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2469 mal in 2453 Posts

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Obidamn » Mo 6. Jun 2016, 16:21

PonderStibbons hat geschrieben:
Das würde für mich doch heißen, ich müsste als Distanzmaß das Chi2-Maß auswählen, richtig?

Nein, wieso? Und wie soll das praktisch durchgeführt werden? Du hast doch gar keine Häufigkeiten.

Oder kann ich so eine Verteilung einfach, wie für metrische Daten üblich, mit dem quadrierten euklidischen Distanzmaß rechnen?

Liegt nahe.

Mit freundlichen Grüßen

P.


Danke erstmal für die Antwort.
Auf die Gefahr hin, dass ich mich hier jetzt als Volldepp darstelle, muss das aber jetzt einmal klar haben... So eine Prozentverteilung über mehrere Variablen sind ja nichts anderes als relative Häufigkeiten und somit durchaus Häufigkeiten. Wieso sollte ich denn relative Häufigkeiten im Zusammenhang mit der Clusteranalyse anders handhaben als absolute Häufigkeiten? Mit Chi2 wird die Verteilung der Werte über die betrachteten Variablen verglichen. Macht für mich irgendwie Sinn. Wo ist mein Denkfehler? Danke vorab!
Obidamn
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 22. Jun 2014, 11:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon PonderStibbons » Mo 6. Jun 2016, 16:33

Deiner Beschreibung nach liegen 6 Messwerte vor, die sich zu 100 addieren.
Um einen Chi² Wert zu ermitteln, braucht man absolute Häufigkeiten,
siehe die entsprechende Formel. Hier gibt es aber nur relative Anteile.
Deswegen war ja meine Frage:
Und wie soll das praktisch durchgeführt werden? Du hast doch gar keine Häufigkeiten.


Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11250
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2469 mal in 2453 Posts

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Obidamn » Mi 8. Jun 2016, 18:49

Danke erstmal wieder für deine Antwort, es wird mir aber immer noch nicht klar, warum Chi2 hier nicht funktionieren sollte...
Spielt mathematisch gesehen doch keine Rolle ob das relative oder absolute Häufigkeiten sind. Chi2 kann ich mit Prozentwerten genauso berechnen wie mit absoluten Häufigkeiten. Ist doch egal, ob ich eine Häufigkeit von 10 oder 0,1 habe. Die Verhältnisse sind ja genau die gleichen.
Berechnet wird Chi2 in der Clusteranalyse paarweise zwischen zwei Fällen, hier am Beispiel durchgerechnet:

(Hoffe man kann es halbwegs lesen, verstehe das mit dem Table Generator hier nämlich auch nicht. :oops: )

Berechnung der Unähnlichkeit von zwei Fällen:
f beobachtet
Fall x1 x2 x3 x4 x5 x6 ∑
1 10 10 20 40 10 10 100
2 50 10 10 20 5 5 100
∑ 60 20 30 60 15 15 200

f erwartet
1 30 10 15 30 7,5 7,5
2 30 10 15 30 7,5 7,5

Quadr. Abweichungen (stand. Residuen)
1 13,33 0,00 1,67 3,33 0,83 0,83
2 13,33 0,00 1,67 3,33 0,83 0,83

Chi2 (Summe der quadr. Abweichungen) 40,00
Chi (Abstand) 6,325

Technisch geht es nach meinem Dafürhalten also durchaus.

Vielen Dank für Reaktionen!
Obi
Obidamn
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 22. Jun 2014, 11:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon PonderStibbons » Do 9. Jun 2016, 10:06

Wenn es so geht, dann ist es ja gut. Die Probleme mit den
nachfolgenden Prozeduren kann ich aber leider nicht einordnen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11250
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2469 mal in 2453 Posts

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Institut_Zwei » Mo 27. Jun 2016, 21:36

Clusteranalyse ist mein Schwerpunkt. Wenn Sie, Obidamn, noch Fragen haben, bitte geben Sie mir bescheid, da die Diskussion schon länger ist. Mir fiel auf, dass Sie die Eigenschaften der Vergleichspartner nicht deutlich nannten (oder ich übersah das). Es kann sein, dass Sie nur eine Eigenschaft haben - dann dürfte die Sache recht banal sein. Sonst, ist die Aufgabestellung u. U. unvollständig.
--
Kurzer
Google: Statistikinstitut Zwei
Institut_Zwei
Mitglied
Mitglied
 
Beiträge: 20
Registriert: Mo 27. Jun 2016, 21:14
Wohnort: Osnabrück
Danke gegeben: 0
Danke bekommen: 3 mal in 3 Posts

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Obidamn » Di 19. Jul 2016, 10:26

Hallo Institut Zwei,

habe gar nicht mehr mit weiterer Hilfe gerechnet, daher erst jetzt Reaktion. Vielen Dank, das freut mich sehr!

Mich verunsichert eine Warnmeldung in SPSS bei Durchfühurng einer hierarchischen CA: "Das quadrierte euklidische Distanzmaß sollte verwendet werden, wenn die Cluster-Methoden CENTROID, MEDIAN oder WARD gewünscht sind."
Hierauf brauche ich eine Antwort, bzw. umgekehrt muss ich wissen, warum ich Ward nicht in Verbindung mit dem Chi2 Maß wählen sollte. In der Diskussion unten sind wir ein wenig Richtung Abstandsmaße abgedriftet, daher ist das Problem noch nicht gelöst...

Hier nochmal die Situationsbeschreibung:

ca. 250 Fälle sind zu clustern (Hierarchische CA da kleine Fallzahl)

Die Daten: Beurteilung der zukünftigen Wichtigkeit von 6 verschiedenen Fähigkeiten (x1-x6) von bestimmten Personen in einem bestimmten Umfeld. Es wurden 100% auf diese 6 Fähigkeiten verteilt. Die Summe der 6 Beurteilungen beträgt also pro Fall immer 100, was jedoch keine Rolle spielen dürfte.

Datenstruktur:
Fall x1 x2 x3 x4 x5 x6
1 10 10 20 40 10 10
2 50 10 10 20 5 5
...


Verschiedene Lösungsansätze:
1. Average Linkage mit Chi2
2. Average Linkage mit quadr. eukl. Distanz
3. Ward mit mit Chi2
4. Ward mit quadr. eukl. Distanz

Chi2, weil eigentlich eine (relative) Häufigkeitsverteilung vorliegt. Der Abstand wird gebildet über die Verteilung über die 6 Fähigkeiten.
Eukl. Distanz, weil Daten als metrisch zu betrachten sind.

Unabhängig vom Abstandsmaß erhalte ich nur mit Ward eine zufriedenstellende Lösung.
Da die Wichtigkeiten hier in Form von Prozentwerten abgegeben wurden, erschien mir Chi2 als Abstandsmaß zunächst die richtige Wahl zu sein. Die Lösung war zufriedenstellend, allerdings erhalte ich eben die o.g. Warnmeldung, die mir nicht erklärbar ist. Mathematisch müsste die Verrechnung von lauter Chi2-Werten doch auch mit Ward möglich sein. Wo liegt das Problem dabei?
Die Ergebnisse mit der quadr. eukl. Distanz waren aber ebenfalls zufriedenstellend. Hier natürlich keine Warnmeldung, nur ein persönlicher innerer Konflikt wg. der Häufigkeiten.

Vielen Dank für Klärung!

Beste Grüße
Obidamn
Obidamn
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 22. Jun 2014, 11:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon PonderStibbons » Di 19. Jul 2016, 11:40

Ward’s Method (...) is an alternative approach for performing cluster analysis. Basically, it looks at cluster analysis as an analysis of variance problem, instead of using distance metrics or measures of association. (...) This method is most appropriate for quantitative variables, and not binary variables. (...) In summary, this method is performed in essentially the same manner as the previous method the only difference is that the cluster analysis is based on Analysis of Variance instead of distances.
http://sites.stat.psu.edu/~ajw13/stat50 ... wards.html
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11250
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2469 mal in 2453 Posts

Re: Hierarchische Clusteranalyse auf Prozentverteilung

Beitragvon Obidamn » Di 19. Jul 2016, 12:49

Ja, ich verstehe prinzipiell wie Ward vorgeht. Ich verstehe nicht, warum ich solche Berechnungen nicht mit einer Menge Chi-Werten machen kann bzw. warum SPSS dafür eine entsprechende Warnung ausgibt.
Chi dient hier ja als Distanzmaß. D.h. Je größer Chi, desto unähnlicher sind sich zwei Fälle. Man erhält also n-1 Chi-Werte vor dem ersten Fusionierungsschritt.
Somit liegen metrische Daten vor. Warum scheint es hier ein Problem zu sein, daraus Varianzen zu berechnen?

MfG
Obidamn
Obidamn
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 22. Jun 2014, 11:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast