Seite 1 von 1

Clusteranalyse - oder doch eine andere Methode?

BeitragVerfasst: Fr 31. Jan 2020, 13:14
von Luk224
Hallo zusammen,

ich habe eine Frage:

Ich analysiere gerade eine Datenbank, welche wie folgt aufgebaut ist.

Indexnummer, Art des Standorts und 15 verschiedene Pflanzenarten, prozentuale Werte.
Sprich

1 - Urban - 2% 0% 0% 0% 30% ...
2 - Wald - 2% ...


Jetzt möchte ich überprüfen, ob die Einteilung der Gruppen nach Urban, Wald, ... (5 versch. Gruppen) sich mit Hilfe der Daten bestätigt.
Sprich in den Wäldern die Verteilung der Pflanzen relativ ähnlich ist. Da dachte ich an eine Clusteranalyse, welche mir die Daten gruppiert und ich im Nachhinein überprüfen kann ob die Datensätze in den Gruppen einheitliche Standorttypen haben.

Ich habe 32 Datensätze. Darunter befinden sich einige Ausreißer, welche womöglich nicht gut in eine Gruppe passen (Beispiel Nadelwald, 100% Bäume) wobei ein Laub- und Mischwald mitunter besser und breiter diversifiziert ist. Oder macht es Sinn die Gruppe "Bäume" zusammenzufassen und erst bei einer Detailanalyse aufzuschlüsseln?

Ist hier die Clusteranalyse überhaupt sinnvoll und angebracht? Oder könnt ihr den Blick eines Freshman vielleicht in eine eher geeignete Richtung lenken?

Viele liebe Grüße und Danke im Vorraus
Lukas

Re: Clusteranalyse - oder doch eine andere Methode?

BeitragVerfasst: Fr 31. Jan 2020, 13:25
von Luk224
... als als Anhang möchte ich eventuell noch hinzufügen:

Ich könnte mir auch vorstellen, ein Maß zu nehmen, um die Varianz in den einzelnen Gruppen zu betrachten - also wie stark weichen die Verteilungen der einzelnen Datensätze vom Durchschnitt der Gruppe ab? Das könnte womöglich robuster gegenüber Ausreißern sein.

Bei meiner ersten Clusteranalyse händisch mit Excel kam zwar ungefähr die erwartete Struktur heraus, allerdings hatten sich einige Wälder in auf den Kalkhalbtrockenrasen verirrt oder vice versa :-)

Re: Clusteranalyse - oder doch eine andere Methode?

BeitragVerfasst: Fr 31. Jan 2020, 14:54
von bele
Ist hier die Clusteranalyse überhaupt sinnvoll und angebracht?


Hi Lukas,

letztlich kommt es darauf an, was Du *eigentlich* untersuchen willst, warum Dich die Zusammenhänge interessieren. Grob unterscheidet man beim Machine learning zwischen überwachtem lernen (supervised learning) und unüberwachten Lernen (unsupervised learning). Clusteranalyse ist unsupervised, d. h. der Computer sieht die vielen verschiedenen Pflanzenzusammensetzungen, denkt sich dazu Grupppenzusammenhänge aus und Du schaust nachher, ob das zu irgendwas passt.

Supervised wäre, wenn Du dem Computer die verschiedenen Pflanzenzusammensetzungen und gleich dazu die Info gibst, ob das jetzt Wald war oder nicht und der Computer mit diesem zusätzlichen Wissen gezielt nach Unterscheidungsmerkmalen sucht. Da kommt dann nachher eine Unterscheidung in Wald/Nicht-Wald heraus und man kann sehr gut quantifizieren, wie oft das richtig und wie oft das falsch war. Was für eine Struktur, wieviele Cluster im unsupervised learning herauskommen weiß man vorher nicht, daher ist es dann auch schwer, da etwas in richtig und falsch einzuteilen.

Wenn Du Dir also bei der Entscheidung für die Clusteranalyse unsicher bist, dann solltest Du als erstes überlegen, welche der beiden o. g. Kategorien Du eigentlich suchst.

Ein anderer Ansatz im unsupervised learning könnte die exploratorische Faktorenanalyse sein, die vielleicht Gruppen von Pflanzen aufdeckt, die sich untereinander ähnlich verhalten, also gemeinsam da sind oder nicht gemeinsam da sind.

LG,
Bernhard

Re: Clusteranalyse - oder doch eine andere Methode?

BeitragVerfasst: Fr 31. Jan 2020, 16:42
von Luk224
Vielen Dank Bernhard,

das ist genau der richtige Input!

Die Bezeichnungen Wald, Wiese, etc. sind fix vergeben und ich möchte im Prinzip darstellen, wie stark die einzelnen Verteilungen in einer Gruppe schwanken oder besser gesagt wie ähnlich sich die Datensätze in den jeweiligen Gruppen sind.

Ich möchte dadurch in meiner Arbeit als kleines Feature einbringen, wie gut diese Einteilung in die 5 Gruppen passt. Also wäre die Clusteranalyse als exploratives Verfahren eher geeignet um die Datensätze darauf folgend in Gruppen einzuteilen oder neue Gruppeneinteilung zu finden - weniger um im ersten Schritt zu beschreiben ob die bisherige, schon feststehende Einteilung gut oder schlecht ist!

Viele Grüße
Lukas