Clusteranalyse - oder doch eine andere Methode?

Alles rund um Clusteranalysen.

Clusteranalyse - oder doch eine andere Methode?

Beitragvon Luk224 » Fr 31. Jan 2020, 13:14

Hallo zusammen,

ich habe eine Frage:

Ich analysiere gerade eine Datenbank, welche wie folgt aufgebaut ist.

Indexnummer, Art des Standorts und 15 verschiedene Pflanzenarten, prozentuale Werte.
Sprich

1 - Urban - 2% 0% 0% 0% 30% ...
2 - Wald - 2% ...


Jetzt möchte ich überprüfen, ob die Einteilung der Gruppen nach Urban, Wald, ... (5 versch. Gruppen) sich mit Hilfe der Daten bestätigt.
Sprich in den Wäldern die Verteilung der Pflanzen relativ ähnlich ist. Da dachte ich an eine Clusteranalyse, welche mir die Daten gruppiert und ich im Nachhinein überprüfen kann ob die Datensätze in den Gruppen einheitliche Standorttypen haben.

Ich habe 32 Datensätze. Darunter befinden sich einige Ausreißer, welche womöglich nicht gut in eine Gruppe passen (Beispiel Nadelwald, 100% Bäume) wobei ein Laub- und Mischwald mitunter besser und breiter diversifiziert ist. Oder macht es Sinn die Gruppe "Bäume" zusammenzufassen und erst bei einer Detailanalyse aufzuschlüsseln?

Ist hier die Clusteranalyse überhaupt sinnvoll und angebracht? Oder könnt ihr den Blick eines Freshman vielleicht in eine eher geeignete Richtung lenken?

Viele liebe Grüße und Danke im Vorraus
Lukas
Luk224
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 29. Jan 2020, 14:31
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Clusteranalyse - oder doch eine andere Methode?

Beitragvon Luk224 » Fr 31. Jan 2020, 13:25

... als als Anhang möchte ich eventuell noch hinzufügen:

Ich könnte mir auch vorstellen, ein Maß zu nehmen, um die Varianz in den einzelnen Gruppen zu betrachten - also wie stark weichen die Verteilungen der einzelnen Datensätze vom Durchschnitt der Gruppe ab? Das könnte womöglich robuster gegenüber Ausreißern sein.

Bei meiner ersten Clusteranalyse händisch mit Excel kam zwar ungefähr die erwartete Struktur heraus, allerdings hatten sich einige Wälder in auf den Kalkhalbtrockenrasen verirrt oder vice versa :-)
Luk224
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 29. Jan 2020, 14:31
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Clusteranalyse - oder doch eine andere Methode?

Beitragvon bele » Fr 31. Jan 2020, 14:54

Ist hier die Clusteranalyse überhaupt sinnvoll und angebracht?


Hi Lukas,

letztlich kommt es darauf an, was Du *eigentlich* untersuchen willst, warum Dich die Zusammenhänge interessieren. Grob unterscheidet man beim Machine learning zwischen überwachtem lernen (supervised learning) und unüberwachten Lernen (unsupervised learning). Clusteranalyse ist unsupervised, d. h. der Computer sieht die vielen verschiedenen Pflanzenzusammensetzungen, denkt sich dazu Grupppenzusammenhänge aus und Du schaust nachher, ob das zu irgendwas passt.

Supervised wäre, wenn Du dem Computer die verschiedenen Pflanzenzusammensetzungen und gleich dazu die Info gibst, ob das jetzt Wald war oder nicht und der Computer mit diesem zusätzlichen Wissen gezielt nach Unterscheidungsmerkmalen sucht. Da kommt dann nachher eine Unterscheidung in Wald/Nicht-Wald heraus und man kann sehr gut quantifizieren, wie oft das richtig und wie oft das falsch war. Was für eine Struktur, wieviele Cluster im unsupervised learning herauskommen weiß man vorher nicht, daher ist es dann auch schwer, da etwas in richtig und falsch einzuteilen.

Wenn Du Dir also bei der Entscheidung für die Clusteranalyse unsicher bist, dann solltest Du als erstes überlegen, welche der beiden o. g. Kategorien Du eigentlich suchst.

Ein anderer Ansatz im unsupervised learning könnte die exploratorische Faktorenanalyse sein, die vielleicht Gruppen von Pflanzen aufdeckt, die sich untereinander ähnlich verhalten, also gemeinsam da sind oder nicht gemeinsam da sind.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 3821
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 10
Danke bekommen: 806 mal in 796 Posts

Re: Clusteranalyse - oder doch eine andere Methode?

Beitragvon Luk224 » Fr 31. Jan 2020, 16:42

Vielen Dank Bernhard,

das ist genau der richtige Input!

Die Bezeichnungen Wald, Wiese, etc. sind fix vergeben und ich möchte im Prinzip darstellen, wie stark die einzelnen Verteilungen in einer Gruppe schwanken oder besser gesagt wie ähnlich sich die Datensätze in den jeweiligen Gruppen sind.

Ich möchte dadurch in meiner Arbeit als kleines Feature einbringen, wie gut diese Einteilung in die 5 Gruppen passt. Also wäre die Clusteranalyse als exploratives Verfahren eher geeignet um die Datensätze darauf folgend in Gruppen einzuteilen oder neue Gruppeneinteilung zu finden - weniger um im ersten Schritt zu beschreiben ob die bisherige, schon feststehende Einteilung gut oder schlecht ist!

Viele Grüße
Lukas
Luk224
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 29. Jan 2020, 14:31
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste