STATISTIK-FORUM.de

BlueEye · von **BlueEye** » Sa 30. Apr 2022, 20:12

Hallo zusammen,

im Rahmen meiner Masterarbeit habe ich die Werte-Passung zwischen Arbeitnehmer und Arbeitgeber berechnet. Dazu habe ich quasi die selbe Skala einmal hinsichtlich Persönlicher Werte und einmal hinsichtlich der Unternehmenswerte abgefragt und die Differenzen der jeweiligen passenden Items addiert. So habe ich die Variable "Cultural Fit" bekommen. Die Skala die ich hierfür genommen habe besteht aus 7 verschiedenen Faktoren für die ich den Fit Index auch berechnet habe.
Jetzt möchte ich den Zusammenhang zwischen Cultural Fit und Arbeitszufriedenheit berechnen, dafür habe ich eine Spearman Korrelation genommen, da meine Daten nicht normalverteilt sind.
Um meine Hypothesen zu testen muss/möchte ich die Gewichtung der bereits bestehenden 7 Faktoren auf Cultural Fit berechnen. Meine Hypothesen beziehen sich darauf, dass Faktor A eine höhere Gewichtung für das Konstrukt Cultural Fit hat als bspw. Faktor B. So kann ich hinterher die Interpretation darauf aufbauen, dass manche Faktoren aus bestimmten Gründen eine größere Gewichtung für Cultural Fit haben.

Meine Frage ist nun, ob ich hierfür auch die Hauptkomponentenanalyse anwenden kann?
Ich weiß, dass diese eigentlich nur verwendet wird um die Faktoren quasi zu "bilden" und die Dimension kompakter darzustellen. Aber hier wird ja quasi auch die Gewichtung der jeweiligen Items auf ein Konstrukt dargestellt.

Ginge andernfalls auch eine Korrelation der verschiedenen Faktoren mit der Variable Cultural Fit zu berechnen? Basierend darauf dann zu sagen das Faktor A eine stärkere Korrelation mit Cultural Fit aufweist als andere Faktoren?

Wenn ich dies so nicht anwenden kann, freu ich mich auch über weitere Vorschläge

Vielen dank schonmal für die Antworten

strukturmarionette · von **strukturmarionette** » So 1. Mai 2022, 01:01

Hi,

quasi

- ?

die selbe Skala

- Quelle?

Gruß
S.

bele · von **bele** » So 1. Mai 2022, 11:48

Hallo BlueEye,

da ich psychologisch unzureichend vorgebildet bin, verkürze ich Deine Fragestellung für mich mal so: Du hast pro beobachteter Person 7 verschiedene Skalenwerte, die jeder einen anderen Faktor von "cultural fit" messen und jetzt ist die Frage, welcher dieser Faktoren viel und welcher wenig Einfluss auf eine weitere erhobene Variable "Arbeitszufriedenheit" haben.

Die nächstliegende Standardantwort darauf wäre doch wohl: Mach eine lineare Regression mit den 7 Faktoren als unabhängigen und der Arbeitszufriedenheit als abhängigen Variablen und schau, welcher Faktor einen hohen und welcher einen niedrigen standardisierten Koeffizienten erhält.
Je nach Anzahl der befragten Personen und nach Korrelation könnte es zu Problemen mit Kollinearität kommen -- dann könnte eine Ridge-Regression helfen, die gleich einflussreichen Prädiktoren dann auch etwa gleiche Koeffizienten zuweisen sollte.

Es gibt viele Alternativen, indem man z. B. schaut, wieviel Vorhersagekraft das Modell mit allen 7 Faktoren verliert, wenn man der Reihe nach jeden Faktor einmal weglässt. Das hat den großen Vorteil, dass man nicht auf eine einfache lineare Regression festgelegt ist, sondern ein Modell nach Wahl nehmen kann.
Eine interessante Alternative wäre ein random forest. Ein Verfahren aus dem Maschinellen Lernen, das im Gegensatz zur lineare Regression ohne weiteres auch komplexe Interaktionen und Nichtlinearitäten berücksichtigt und für das Berechnungsmethoden für "Variable Importance" der unabhängigen Variablen üblich und in gängiger Software umgesetzt sind. Dafür gibt es da nicht ohne weiteres p-Werte, wenn man die braucht.

Es hängt alles auch ein wenig davon ab, mit welcher statistischen Vorbildung Du kommst und wie weit Du Dich in Dinge einarbeiten möchtest. Standard-Methode bei nur Grundausbildung: Standardisierte Regressionskoeffizienten.

Die PCA würden Einfluss der 7 Werte auf eine oder mehrere Hauptkomponenten erklären. Sie sieht aber nicht vor, dass diese Hauptkomponente an der Arbeitszufriedenheit ausgerichtet wird. Mit Begriffen des Maschinellen Lernen gesprochen: HAuptkomponentenanalyse ist unüberwachtes Lernen, Du brauchst hier aber überwachtes Lernen ("supervised learning"/"unsupervised learning").

HTH,
Bernhard

BlueEye · von **BlueEye** » So 1. Mai 2022, 14:42

Hallo bele,

vielen Dank für deine Antwort!

bele hat geschrieben:Du hast pro beobachteter Person 7 verschiedene Skalenwerte, die jeder einen anderen Faktor von "cultural fit" messen und jetzt ist die Frage, welcher dieser Faktoren viel und welcher wenig Einfluss auf eine weitere erhobene Variable "Arbeitszufriedenheit"

So hatte ich es gemeint.

bele hat geschrieben:Mach eine lineare Regression mit den 7 Faktoren als unabhängigen und der Arbeitszufriedenheit als abhängigen Variablen und schau, welcher Faktor einen hohen und welcher einen niedrigen standardisierten Koeffizienten erhält.

Meine Daten sind nicht normalverteilt und bei der Testung auf einen linearen Zusammenhang konnte ich leider auch keinen Zusammenhang feststellen (auch nicht bei den Residuen). Kann ich die Regression dann trotzdem durchführen, eigentlich eher nicht oder?

Insgesamt hab ich eine Stichprobe von N = 139, was ja eigentlich groß genug ist um von Normalverteilung auszugehen. Aber die Sub-Gruppen, die ich untersuche sind leider kleiner (N1 = 50; N2 = 47; N3 = 42. Kann ich dann immer noch von Normalverteilung ausgehen und was mach ich sonst mit dem nicht vorhandenen linearen Zusammenhang?

Eigentlich könnte ich die Hypothesen auch so aufbauen: Je größer der Fit bei Faktor1, je größer ist die Arbeitszufriedenheit. Kann ich bei so einer Hypothese nicht auch einfach eine Korrelation zwischen den Faktoren und Arbeitszufriedenheit berechnen und dann die Stärke und Signifikanz beurteilen?

bele hat geschrieben:Vorhersagekraft das Modell mit allen 7 Faktoren verliert, wenn man der Reihe nach jeden Faktor einmal weglässt. Das hat den großen Vorteil, dass man nicht auf eine einfache lineare Regression festgelegt ist, sondern ein Modell nach Wahl nehmen kann.

Wie würde ich denn hier vorgehen?

Vielen Dank
BlueEye

PonderStibbons · von **PonderStibbons** » So 1. Mai 2022, 15:45

Meine Daten sind nicht normalverteilt

Normalverteilung der abhängigen Variable (in der Stichprobe sowieso, aber auch in der Grundgesamtheit) ist völlig egal.
Allenfalls ist für den F-Test anzunehmen, dass die Residuen aus einer normalverteilten Grundgesamtheit stammen. Aber
auch das ist nur bei kleinen Stichproben (n < 30) von Belang. Falls mit "Daten" auch die Prädiktoren gemeint sind,
für die gelten sowieso keine solchen Verteilungsbetrachtungen, selbst die falschen nicht.

und bei der Testung auf einen linearen Zusammenhang konnte ich leider auch keinen Zusammenhang feststellen (auch nicht bei den Residuen).

Wenn die 7 Prädiktoren die abhängige Variable nicht ausreichend vorhersagen, wozu dann der weitere Aufwand?

Insgesamt hab ich eine Stichprobe von N = 139, was ja eigentlich groß genug ist um von Normalverteilung auszugehen.

Überraschende Formulierung. Wie sollte eine nicht-normale Verteilung plötzlich normal werden, wenn die Stichprobe eine
gewisse Größe erreicht?

Es geht allein darum, dass der statistische Test zuverlässig auch bei nichtnormalen Residuen ist, wenn die Stichprobe, mit
der das Modell geschätzt wird, ausreichend groß ist.

Mit freundlichen Grüßen

PonderStibbons

bele · von **bele** » So 1. Mai 2022, 16:00

Hallo BlueEye,

BlueEye hat geschrieben:
bele hat geschrieben:Mach eine lineare Regression mit den 7 Faktoren als unabhängigen und der Arbeitszufriedenheit als abhängigen Variablen und schau, welcher Faktor einen hohen und welcher einen niedrigen standardisierten Koeffizienten erhält.

Meine Daten sind nicht normalverteilt und bei der Testung auf einen linearen Zusammenhang konnte ich leider auch keinen Zusammenhang feststellen (auch nicht bei den Residuen). Kann ich die Regression dann trotzdem durchführen, eigentlich eher nicht oder?

Nun, ob nun normalverteilte Residuen oder auch nicht, die Regression gibt Dir die Lösung mit den kleinsten Quadraten als Residuen, also die Koeffizienten, die am besten passen. Wenn es wirklich gar keinen angenähert linearen Zusammenhang gibt, dann machen lineare Verfahren wie lineare Regression und PCA vielleicht wirklich nicht soviel Sinn. Woraus leitest Du denn ab, dass es bei diesem multidimensionalen Problem keinen linearen Zusammenhang gibt?

Insgesamt hab ich eine Stichprobe von N = 139, was ja eigentlich groß genug ist um von Normalverteilung auszugehen. Aber die Sub-Gruppen, die ich untersuche sind leider kleiner (N1 = 50; N2 = 47; N3 = 42.

Von Subgruppen war bisher nicht die Rede, oder?

Eigentlich könnte ich die Hypothesen auch so aufbauen: Je größer der Fit bei Faktor1, je größer ist die Arbeitszufriedenheit. Kann ich bei so einer Hypothese nicht auch einfach eine Korrelation zwischen den Faktoren und Arbeitszufriedenheit berechnen und dann die Stärke und Signifikanz beurteilen?

Doch. In dem Fall kannst Du auch in einem einfach Diagramm Faktor1 gegen Arbeitszufriedenheit Linearität und Monotonität beurteilen.

LG,
Bernhard

STATISTIK-FORUM.de

Hauptkomponentenanalyse bei bestehenden Faktoren

Hauptkomponentenanalyse bei bestehenden Faktoren

Re: Hauptkomponentenanalyse bei bestehenden Faktoren

Re: Hauptkomponentenanalyse bei bestehenden Faktoren

Re: Hauptkomponentenanalyse bei bestehenden Faktoren

Re: Hauptkomponentenanalyse bei bestehenden Faktoren

Re: Hauptkomponentenanalyse bei bestehenden Faktoren

Wer ist online?