Seite 1 von 1

Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: So 6. Aug 2017, 14:36
von MrsBrünett
Hallo zusammen,

ich stecke in den Vorbereitungen für eine hierarchische Clusteranalyse.

Nun habe ich gelesen, dass ich zuvor für ordinal und nominal skalierte Variablen Dummy Variablen anlegen muss und dass ggf. z-standardisiert werden muss. Aber dass man hierbei eben genau aufpassen muss.

Nun würde ich gerne wissen, ob ich
1) tatsächlich für alle ordinalen und nominal skalierten Variablen Dummies anlegen muss und warum? --> in der Quelle steht nur, dass alle Variablen mathematisch quantifizierbar sein müssen, aber warum sind sie das ohne Dummies nicht?

2) z-standardisieren muss? Dies könnte für meine Variablen Alter (freie Eingabe möglich), Zahlungsbereitschaft (unter 49€, 50-99€, 100-149€, 150-199€, über 200€) oder Einkommen (unter 999€, 1000-1999€, 2000-2999€, 3000-3999€, 4000-4999€, über 5000€) in Frage kommen. Diese sind ja in unterschiedlichen Diemsionen skaliert, sodass ich z-standardisieren muss...? :?:

Das ist für mich wirklich Neuland, bitte entschuldigt, wenn die Frage irgendwie dämlich ist.

Viele Grüße und vielen Dank,
MB

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: So 6. Aug 2017, 17:24
von PonderStibbons
Nun würde ich gerne wissen, ob ich
1) tatsächlich für alle ordinalen und nominal skalierten Variablen Dummies anlegen muss und warum?

Weil ordinale und kategoriale Daten bei der Berechnung der Distanzen nicht verwendet werden können.

Ob dann eine Mischung aus binären und intervallskalierten Daten bei einer hierarchischen Cluseranalyse überhaupt zulässig ist, weiß ich allerdings nicht.

Mit freundlichen GRüßen

PonderStibbons

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: So 6. Aug 2017, 19:01
von MrsBrünett
Hallo PonderStibbons,

super, vielen Dank, dann werde ich mich mal dran machen Dummy-Variablen anzulegen und versuchen herauszufinden, wie das geht.

Kannst du etwas zu der z-Transformation sagen? Ich hatte inzwischen noch ein bisschen dazu gelesen und bin zu dem Ergebnis gekommen, dass das nicht nötig sein müsste oder liege ich damit falsch? Es sind zwar unterschiedlich große €-Klassen bei Einkommen und Zahlungsbereitschaft, aber es sind ja immer Angaben in vollen Euros...

Was ich generell mit dem Alter für eine Clusteranalyse machen muss, ist mir allerdings nach wie vor unklar. :?: Mittelwerte wären ja erst bei den finalen Clustern interessant, vorher natürlich nicht... Aber die Altersangaben können so doch nicht bleiben, oder irre ich?

LG und vielen Dank,
MB

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Mo 7. Aug 2017, 08:53
von PonderStibbons
Kannst du etwas zu der z-Transformation sagen? Ich hatte inzwischen noch ein bisschen dazu gelesen und bin zu dem Ergebnis gekommen, dass das nicht nötig sein müsste oder liege ich damit falsch? Es sind zwar unterschiedlich große €-Klassen bei Einkommen und Zahlungsbereitschaft, aber es sind ja immer Angaben in vollen Euros...

Das sind zwei ordinale Variablen, die kannst Du nicht z-standardisieren. Oder wie hattest Du Dir das bei diesen Variablen konkret vorgestellt?

Wären es ungruppierte Angaben, müsste der Tatsache Rechnung getragen werden, dass sich bei der einen Variablen die Werte bis über 5000 bewegen, bei der anderen Variablen bis etwas über 200. Werden für die Clusteranalyse Distanzen wie z.B. die euklidische Distanz berechnet, dann erhält automatisch die Variable mit der weitaus größeren Spannweite auch einen weitaus größeren Anteil an der Größe der Distanz zwischen den Fällen. Der Unterschied zwischen 2400 und 2900 Euro Einkommen ist größer als ein Unterschied zwischen 0 und 400 Euro Zahlungsbereitschaft, obwohl inhaltlich vielleicht letzteres bedeutsamer wäre. Um solche Effekte auszuschalten, kann man standardisieren. Entsprechend ist ein Altersunterschied zwischen 20 und 40 vermutlich wichtiger als ein Einkommensunterschied zwischen 2000 und 2100 Euro, aber letzterer wäre ohne eine Standardisierung größer und einflussreicher.

LG

wtf

Mit freundlichen Grüßen

Ponderstibbons

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Mo 7. Aug 2017, 18:58
von MrsBrünett
Hallo PonderStibbons,

Das sind zwei ordinale Variablen, die kannst Du nicht z-standardisieren. Oder wie hattest Du Dir das bei diesen Variablen konkret vorgestellt?

Wären es ungruppierte Angaben, müsste der Tatsache Rechnung getragen werden, dass sich bei der einen Variablen die Werte bis über 5000 bewegen, bei der anderen Variablen bis etwas über 200. Werden für die Clusteranalyse Distanzen wie z.B. die euklidische Distanz berechnet, dann erhält automatisch die Variable mit der weitaus größeren Spannweite auch einen weitaus größeren Anteil an der Größe der Distanz zwischen den Fällen. Der Unterschied zwischen 2400 und 2900 Euro Einkommen ist größer als ein Unterschied zwischen 0 und 400 Euro Zahlungsbereitschaft, obwohl inhaltlich vielleicht letzteres bedeutsamer wäre. Um solche Effekte auszuschalten, kann man standardisieren. Entsprechend ist ein Altersunterschied zwischen 20 und 40 vermutlich wichtiger als ein Einkommensunterschied zwischen 2000 und 2100 Euro, aber letzterer wäre ohne eine Standardisierung größer und einflussreicher.


Super, vielen Dank, so ist es einleuchtend!

Kannst du bei meinem Anliegen einen Fusionierungsalgorythmus für die Analyse empfehlen? Ich habe nun so viel gelesen, dass ich eher verwirrt als aufgeklärt bin.
Ich wollte zunächst eine hierarchische Clusteranalyse durchführen, da sie in der Praxis ohnehin gängiger scheint und aufgrund der Verwendung metrischer und nichtmetrischer Daten für mich als Laie einfacher scheint. Allerdings habe ich dann gelesen, dass sich bei n>1000 partionierende Verfahren, sprich die Clusterzentrenanalyse, eher anbieten, auch, wenn ich vorab eine bestimmte Anzahl von Clustern vorgeben müsste.

Nun bin ich als Laie leicht überfordert und stehe allmählich unter Zeitdruck. Ich muss mich noch durch das Verfahren kämpfen, weiß aber nicht einmal, welches das "richtige" ist... Ich habe keinerlei Vorgaben oder Anforderungen, ich bin offen gegenüber meinen Ergebnissen. Wichtig wäre mir, dass es eine "einfache" und "schlanke" Möglichkeit gibt, zu den Clustern zu gelangen. Problemtisch scheinen ja auch bei einigen Verfahren die gemischt-skalierten Daten, mit denen ich mich noch auseinandersetzen und die Variablen dekodieren müsste...

Viele Grüße und danke,
MB

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Mo 7. Aug 2017, 20:07
von PonderStibbons
Nun bin ich als Laie leicht überfordert und stehe allmählich unter Zeitdruck.

Dann mach doch das, was Dir unmittelbar am einleuchtendsten erscheint bzw. was Du am einfachsten durchführen kannst. Du hast, ganz nüchtern betrachtet, so wenig Ahnung von dem, was Du da tust, und zwar von A bis Z, als dass ich annehmen könnte, dass etwas Seriöses herauskommen wird. Das hat aber den Vorteil für Dich, dass es in erster Linie darauf ankommen wird, ob das Ergebnis für die Abnehmer plausibel/nachvollziehbar/sexy aussieht und mit einleuchtenden Grafiken und Tabellen garniert werden kann. Nicht, ob es reliabel und valide ist.

Ob n > 1000 im Jahr 2017 und der aktuellen Rechnerleistungsfähigeit noch ein relevantes Kriterium ist, um hierarchische Verfahren nicht benutzen zu sollen, weiß ich nicht. Andererseits, Clusterzentrenanalyse kann Deine gemischten (binär und intervall) Daten verarbeiten
EDIT: ach nee, die ja auch nicht

, was hierarchische Verfahren meines Wissens nach nicht können. Wie Du an die Zahl und vielleicht sogar die Startpositionen der Zentren kommst, weiß ich allerdings nicht. Ist (siehe oben) aber vielleicht auch zweitrangig, solange das Ergebnis gut daherkommt. Du kannst eventuell auch zwei oder drei Varianten rechnen, jeweils mit "literaturgestützten" Annahmen über die Zahl der Typen, und dann die bestaussehende Lösung verwenden.

Alternativ kannst als Plan B Du auch ein bißchen Geld investieren und eine Statistikberatung beauftragen.

Mit freundlichen Grüßen

PonderStibbons

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Di 8. Aug 2017, 10:37
von MrsBrünett
Hallo PonderStibbons,

Alternativ kannst als Plan B Du auch ein bißchen Geld investieren und eine Statistikberatung beauftragen.


Habe ich tatsächlich schon angefragt, aber ist für eine Studentin doch verhältnismäßig viel Geld - leider. :?

Nicht, ob es reliabel und valide ist.


Nun gut, du magst voll im Recht sein, dass ich wenig Ahnung davon habe und ebenso der Auftraggeber, allerdings werden meine Dozenten das wohl besser wissen, wenn Sie mir eine Note geben, weshalb ich schon Wert auf ein reliables Ergebnis lege. Aber vermutlich wird das so tatsächlich nichts, da hast du Recht.

Vielen Dank trotzdem für den schlauen Rat.

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Di 8. Aug 2017, 13:34
von strukturmarionette
Hi,

meine Dozenten das wohl besser wissen

- kannst Du das begründen?

Gruß
S.

Re: Voraussetzungen: Z-Standardisierung, Dummies etc.

BeitragVerfasst: Mi 9. Aug 2017, 10:33
von MrsBrünett
Hallo Strukturmarionette,

- kannst Du das begründen?


Meine Dozenten sind ausgebildete Psychologen mit Professoren- und Doktortiteln, haben ihren Schwerpunkt u.a. in Statistik, MaFo, Diagnostik & Evaluation bzw. lehren diese Fächer schwerpunktmäßig - da gehe ich davon aus, dass sie nicht nur wollen, dass es schön guckt, sondern auch das es objektiv, reliabel und valide ist. Und natürlich können die das alle und könnten alle meine Fragen im Nu beantworten und wahrscheinlich auch mit etwas konkreteren Hinweisen als die vagen Antworten, die ich hier im Forum erhalte, aber je mehr sie mir sagen -was sie ja auch nicht in allen Fällen dürfen- desto schlechter ist automatisch meine Note.

Auch wenn ich in diesem Bereich meines Studiums sicherlich nicht am besten abgeschnitten und auch nicht die meiste Ahnung habe, so habe ich dennoch den Anspruch, eine gute Arbeit abzuliefern. Ich versuche mir hier ja wirklich Hilfe zu holen, aber klar ist man dann irgendwann demotiviert, wenn man nicht so wirklich hilfreiche Antworten erhält... :roll:

Aber das beiseite, ich muss mich da jetzt durchkämpfen und zu einem einigermaßen guten Ergebnis kommen. Es nützt ja alles nichts und wie gesagt, mir verbleiben nur noch knapp 3 Wochen. Den Datensatz aufzubereiten, die Analyse zu machen, auszuwerten und alles zu verschriftlichen wird für mich nun sportlich. ;)

Viele Grüße,
MB