Single Linkage zur Ausreißeranalyse richtig benutzen

Alles rund um Clusteranalysen.

Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon Die Stephie » Mo 15. Apr 2013, 12:56

Hallo Experten,

derzeit clustere ich Daten für meine Diplomarbeit (N=1565, 43 Variablen) :shock:

Um mit etwas mehr Sicherheit zu clustern, möchte ich gerne vorher eine Ausreißeranalyse vornehmen. Überall steht zwar, dass man Single Linkage dafür nehmen soll, aber ich finde nichts dazu, wie genau man das machen soll. Ich würde erwarten, dass es große Cluster gibt plus ein oder mehrere Cluster mit einigen wenigen Personen.

Meine Frage ist also: Wie viele Cluster soll ich Single Linkage vorgeben, um Ausreißer zu identifizieren?

Ich habe mal spaßeshalber 2 bis 50 Cluster angegeben. Ergebnis ist, dass immer 1 riesiges Cluster rauskommt plus 1-Personencluster je nach Anzahl der vorgegeben Cluster. Also z.B. bei 30 vorgegebenen Clustern ein großes Cluster mit mehr als 1000 Personen plus 29 Cluster mit jeweils nur einer Person.

Das bedeutet doch, dass keine Ausreißer drin sind oder? Denn der Algorithmus trennt einfach die am schlechtesten passende Person zwangsweise ab?

Ich bin auf schlaue Antworten gespannt ;)
Danke schon mal!
Die Stephie
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Di 11. Dez 2012, 11:48
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon aziz » Mo 15. Apr 2013, 13:41

Hallo Stephie,

Die Stephie hat geschrieben:Meine Frage ist also: Wie viele Cluster soll ich Single Linkage vorgeben, um Ausreißer zu identifizieren?

Die "optimale" Clusterzahl könntest du mit dem Elbow-Kriterium bestimmen.

Die Stephie hat geschrieben:Ich habe mal spaßeshalber 2 bis 50 Cluster angegeben. Ergebnis ist, dass immer 1 riesiges Cluster rauskommt plus 1-Personencluster je nach Anzahl der vorgegeben Cluster. Also z.B. bei 30 vorgegebenen Clustern ein großes Cluster mit mehr als 1000 Personen plus 29 Cluster mit jeweils nur einer Person.
Das bedeutet doch, dass keine Ausreißer drin sind oder? Denn der Algorithmus trennt einfach die am schlechtesten passende Person zwangsweise ab?

Auf mich wirkt es so, als könnten Ausreißer vorhanden sein. Du hast einen riesen Cluster und ansonsten Cluster mit jeweils einer Person. Hier wäre es interessant, inwie weit sich die 1-Personencluster vom großen Unterscheiden. Also hinsichtlich welcher deiner 43 Merkmale. Weiterhin könntest du vor der Clusteranalyse dir arithmetische Mittel und Mediane bezüglich der Merkmale anschauen. Liegen hier große Unterschiede zwischen Median und arithmetischen Mittel vor, so deutet dies auf Ausreißer hin.

Gruß
Aziz
aziz
 
Danke gegeben:
Danke bekommen: mal in Post

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon PonderStibbons » Mo 15. Apr 2013, 13:53

derzeit clustere ich Daten für meine Diplomarbeit (N=1565, 43 Variablen)

Willst Du tatsächlich bei der Interpretation die Cluster anhand von
43 Merkmalen beschreiben? Mal abgesehen davon, dass
meist jede Menge Redundanz in solch einer Unzahl steckt,
welchen Sinn und Zweck hat denn die Analyse?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11265
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon Die Stephie » Mo 15. Apr 2013, 14:32

Hallo aziz,
das mit den Medianen ist eine gute Idee. Das schau ich mir gleich mal an...

Hallo PonderStibbons,

ja, 43 sind Wahnsinn. :?
Es geht in meiner DA um Geocacher und deren Motive, Geocaching zu betreiben. Anhand der Motive möchte ich verschiedene Cachertypen clustern. Dazu habe ich einen Motivfragebogen zu allgemeinem Sport benutzt und diesen um weitere geocaching-spezifische Motive erweitert. Leider hat meine Eigenentwicklung in der PCa nur etwa 58% Varianzaufklärung. Die Idee war natürlich ursprünglich, mit nur wenigen Faktoren zu clustern. Die Literatur empfiehlt eine Zusammenfassung von Variablen erst ab einer Korrelation von .9 und das erreiche ich definitiv nicht. Aber die Interpretation dürfte durch die Faktoren, die ich ja gebildet habe, trotzdem leichter werden.
Validieren möchte ich die Clusterung im Anschluss dann mit spezifischem Geocaching-Verhalten (Anzahl Funde, Häufigkeit der Aktivität usw.), was ich ebenfalls erhoben habe.
Die Stephie
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Di 11. Dez 2012, 11:48
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon PonderStibbons » Mo 15. Apr 2013, 15:42

Leider hat meine Eigenentwicklung in der PCa nur etwa 58% Varianzaufklärung.

Ist das wenig?
Die Idee war natürlich ursprünglich, mit nur wenigen Faktoren zu clustern.

Dann solltest D eine Faktorenanalyse durchführen, keine Hauptkomponentenanalyse.
Die Literatur empfiehlt eine Zusammenfassung von Variablen erst ab einer Korrelation von .9 und das erreiche ich definitiv nicht.

Ich weiß nicht, worauf sich die Aussage mit der Korrelation nun bezieht (Items?),
aber dass man irgendwas erst ab Korrelation 0,9 zusammenfassen sollte, wäre
mir neu. Das wäre mit Verlaub auch ziemlicher Humbug, da angesichts der
üblichen Reliabilitäten von 0,6 bis 0,9 ein Wert von 0,9 kaum mal zu erreichen
wäre. Wo stand denn das?

Mit freundlichen Grüßen

K.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11265
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon Die Stephie » Mo 15. Apr 2013, 16:24

58% Varianzaufklärung ist zu wenig. Das bedeutet ja, fast die Hälfte der Varianz ginge mir verloren. Und da ich eh relativ wenig Streuung habe, ist jede Varianzreduktion ungünstig (eine PCA wird übrigens nach Schendera (Clusteranalyse mit SPSS) explizit empfohlen, wenn man den Datenraum reduzieren möchte. Wenn ich eine Hauptachsen-Analyse (PAF) durchführe, erreiche ich übrigens noch weniger (rund 35%)). Die Reliabilitäten für meine Faktoren sind hingegen recht zufriedenstellend (Cronbachs alpha=.53-.78)
Das mit der Korrelation zwischen den Items habe ich aus Bacher, J. (1996). Clusteranalyse: Anwendungsorientierte Einführung (2nd ed.). München; Wien: Oldenbourg.
Du hast schon recht, dass solche Werte kaum erreicht werden. Ich muss nur halt alles irgendwie mit Literatur belegen, wenn ich mich für einen Weg entscheide, da mir die Erfahrung beim Clustern fehlt

Grüße und vielen Dank
Stephie
Die Stephie
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Di 11. Dez 2012, 11:48
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon strukturmarionette » Di 16. Apr 2013, 07:08

Hi,

da scheint aber irgendwo ein Rechenfehler oder grundlegendes Missverständnis vorzuliegen,
das kann nicht sein:

58% Varianzaufklärung [bei der PCA] ist zu wenig. (...) Wenn ich eine Hauptachsen-Analyse (PAF) durchführe, erreiche ich übrigens noch weniger (rund 35%).
[bei]
Daten für meine Diplomarbeit (N=1565,


Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon Die Stephie » Di 16. Apr 2013, 10:18

Damit kann ich leider nicht so viel anfangen. Was meinst du damit? Die große Abweichung zwischen den beiden Verfahren?

Gruß
Stephie
Die Stephie
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Di 11. Dez 2012, 11:48
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Single Linkage zur Ausreißeranalyse richtig benutzen

Beitragvon strukturmarionette » Di 16. Apr 2013, 17:37

Hi,

ich meine, das sich wegen Deiner riesigen Stichprobe die Varianzaufklärung zwischen PCA und PAF normalerweise nicht in dem von Dir genannten Umfang unterscheiden wird.
(wobei gewiss trotzdem die PAF immer zu bevorzuugen wäre)

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts


Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron