STATISTIK-FORUM.de

DocX · von **DocX** » Sa 15. Mär 2014, 20:14

Hallo,

ich beschäftige mich grade mit der Faktorenanalyse und versuche, meine Daten zu reduzieren.
Dabei habe ich bei SPSS die Hauptkomponentenanalyse mit Varimaxrotation durchgeführt.
Mein Fragebogen hat 30 Items, theoretisch angenommen habe ich eine dreifaktorielle Lösung. Nun habe ich eine EFA gemacht und dabei 5 Faktoren extrahiert, der 4. und 5. jedoch nicht besonders stabil. Nach Eliminierung einiger Variablen, die sprachlich schwierig oder auch theoretisch nicht gut interpretierbar waren (und/oder nicht hoch auf einem der ersten drei Faktoren luden), hat sich eine gute 3-faktorielle Lösung gezeigt. Dabei laden 5, 6 und 6 Faktoren auf jeweils einen Faktor(mit über .5) Dieses Modell habe ich anschließend über die CFA geprüft und es zeigen sich akzeptable Modellwerte.
Nun habe ich gehört, dass es strenge Verfechter gibt, die sich gegen die Hauptkomponentenanalyse und für die grundsätzliche Verwendung der HAA aussprechen. Der Unterschied besteht doch darin, dass die Hauptkomponenten davon ausgeht, dass jedes Variable/jedes Item mit sich selbst zu 1 korreliert und die HAA nicht? Welchen Unterschied macht das für die Interpretation? Dass bei der HAA der Messfehler mitberücksichtigt/angenommen wird?
Ich habe versuchsweise die HAA durchgeführt und komme zu anderen, und dummerweise nicht interpretierbaren Ergebnissen.
Gibt es Literaturangaben oder Argumente, warum ich hier doch die Hauptkomponentenanalyse durchführen kann? Ich habe dazu wenig gefunden, bei Weiber/Mühlhaus (Strukturgleichungsmodelle) heißt es nur lapidar in einem Absatz „es sollte die HAA verwendet werden“, eine Abgrenzung zur Hauptkomponentenanalyse findet nicht statt.
Es wäre super, wenn da jemand Tipps für mich hätte!

Viele Grüße
DocX

Holgonaut · von **Holgonaut** » So 16. Mär 2014, 12:48

Hi,

die PCA (principal component analysis) ist ein Verfahren, das rein technisch darauf abzielt, viele items für eine praktisch Handhabung auf wenige Komponenten zu reduzieren. Grundlage
für die Reduktion ist die Interkorrelation der items. Man bewegt sich hierbei vollständig auf der manifesten Ebene und bleibt auch auf dieser. Keine latenten Faktoren, keine Annahmen/Hypothetisierung der Gründe für die Interkorrelationen - stattdessen ist es ein Sortierungsverfahren. Ergo ist eine Hauptkomponente nichts weiteres als die (gewichtete) Summe der Items.

Die HAA unterstellt dagegen dass common factor model - d.h. sie macht die Annahme, dass die Interkorrelationen der items dadurch entstanden sind, dass ein set von items durch latente gemeinsame Ursachen entstanden sind.

Es kommt also darauf an, welche Annahmen du hast. Die Kombination von PCA und CFA ist unsinnig, weil das Modell ein völlig anderes ist. Wenn du also Indizes/bundles von items bilden willst, wäre die PCA geeigneter; wenn du mit deinen items latente Faktoren MESSEN willst, die HAA.

Ich finde mittlerweile beide Verfahren kritisch. Sie sind m.E. ein empirizistisch/positivistischer Versuch, aus items durch die factor-analytic machinery irgendwas theoretisch bedeutsames zu kreieren. Ich denke, dass apriori-Theorie sinnvoller ist.

a) Wenn das Ziel die Bildung eines Index/bundles ist: warum sollte die Interkorrelation das wesentliche Sortierungskriterium sein. Meist sollen diese Indizes eine Rolle innerhalb eines Kausalmodells spielen (d.h. als UVn oder AVn) - daher würde ich dafür plädieren, entweder

1) die *kausale Homogenität* der items als Sortierungskriterium zu nehmen (d.h. Funktionieren sie innerhalb des kausalen Modells gleich). Haut man nämlich Facetten, die unterschiedlichen Prozessen unterliegen in einen Index, hat man nur noch Brei, weil sich u.U. negative und positive Effekte auslöschen.
2) Alternativ könnte ein theoretisches Einschlusskriterium gewählt (z.B. könnte aufgrund einer Definition eines (multidimensionalen) Konstrukts die Facetten a,b,c... eingeschlossen werden - also was gehört unbedingt rein, um das Konstrukt abzudecken). Hier wäre es aber eigentlich sinnvoller, diese als eigene latente Variablen zu modellieren).

b) Die EFA / HAA dagegen unterstellt blind das common factor model - d.h. sie sagt, dass die Interkorrelationen vollständig durch common factors entstanden sind. Alternative kausale Prozesse kann sie nicht identifzieren (z.B. Effekte von items aufeinander) und sie kann nur Faktoren extrahieren, wenn mehrere Items denselben Faktor messen. Was wenn jetzt items drin sind, die einen wichtigen Faktor messen, aber single-indicators sind?

Wie gesagt, mit Items zu beginnen ist theorielos und wird meist keine Theorie bringen. Man weiß selbst im Falle der EFA nicht mal, ob diese extrahierten Faktoren irgendeine Bedeutung haben (siehe dazu die sehr interessanten Artikel von Lee & Cadogan über die Kritik an second-order-Faktoren).

Daher: besser von exploratorischen Faktorenanalysen absehen und die Analyse auf Deinen Überlegungen basieren lassen.

Grüße
Holger

Lee, Nick, & Cadogan, John W. (2013). Problems with formative and higher-order reflective variables. Journal of Business Research, 66(2), 242-247.

Holgonaut · von **Holgonaut** » So 16. Mär 2014, 13:10

Hi DocX,

du schriebst:

Mein Fragebogen hat 30 Items, theoretisch angenommen habe ich eine dreifaktorielle Lösung.

Das heißt ja, du hast bereits eine theoretische Vorstellung. Dann teste diese Vorstellung doch gleich in einer CFA. Aber sei gefasst darauf, dass du mit 10 items pro latenter
Variable an die Wand fahren wirst. Was ist genau Deine Vorstellung? Ist sie über die 3 latenten Variablen? Warum dann nicht 2-3 der konzeptionell klarsten items pro Variable
aussuchen und diese in dem Modell testen. Es ist ein seltsamer Glaube (in der Psychologie), dass man immer viele items braucht um eine latente Variable zu messen. Folge
sind dann SEM mit völlig fehlspezifizierten Messmodellen und einem extrem simplizistischen Strukturmodell. Und dann kommen noch Wegerklärungs-Mantren wie "der chi-Quadrat-Wert
ist problematisch" und "der Modellfit ist akzeptabel"

und schon ist man auf der Straße der Sinnlosigkeit.

Daher
a) Konstrukte klar konzeptionalisieren in Termini von empirischen, kausal wirksamen Phänomenen (--> latente Variable). Dies Phänomene sind eindimensional und damit so singular und
spezifisch wie nur möglich).
b) die theoretisch klarsten reflektiven Indikatoren für DIESE latente Variable auswählen (--> wenige, aber klare Indikatoren)
c) dadurch ein lupenreines Messmodell ereichen (mit nicht-signifikantem Chi-Quadrat-Wert)
d) dann ein SEM mit Kontroll- oder Instrumentalvariablen und kausal sinnvollen Restriktionen (das führt hier zu weit - hier lohnt sich mal folgendes Kapitel zu lesen: https://www.google.de/url?sa=t&rct=j&q= ... frizrp_Gjg).

Grüße
Holger

DocX · von **DocX** » Fr 21. Mär 2014, 19:07

Hallo Holger,

vielen Dank für deine umfassende und kritische Betrachtung.

Viele deiner Argumente kann ich gut nachvollziehen, ich hänge lediglich an 2 Punkten:
1) wenn ich nur 2-3 meiner 10 Items verwende, schmeiße ich dann nicht zu viel Daten weg?
2) wie würde ich auswählen, dass dies nun die 2-3 besten Items sind? Wie sooft üblich sind einige sehr ähnlich formuliert, deswegen hätte ich sie gerne nach mathematischen Kriterien ausgewählt...

Holgonaut hat geschrieben:Was ist genau Deine Vorstellung? Ist sie über die 3 latenten Variablen?

Ich verstehe die Frage nicht ganz....meine drei latenten Variablen würden nochmal auf einen übergeordnete Variable hinweisen. Also z.B. übergeordnet: Lesebegeisterung, darunter die drei Faktoren Lesemenge, Lesetiefe und Lesegeschwindigkeit. Variablen wären dann: ich lese sehr schnell, ich lese sehr gern, ich kann manchmal ein Buch nicht mehr weglegen, ich lese oft stundenlang, für mich gibt es nichts schöneres als Lesen. Oder so.

Vielen Dank nochmal
Gruß DocX

Holgonaut · von **Holgonaut** » Mo 24. Mär 2014, 10:42

Hi,

1) wenn ich nur 2-3 meiner 10 Items verwende, schmeiße ich dann nicht zu viel Daten weg?

Wenn das Modell korrekt ist, sind alle 10 items Ausdruck einer latenten Variable und somit redundant. Damit schmeißt du keine Daten weg.
Wenn das Modell inkorrekt ist und die 10 items mehr als nur eine latente Variable messen, schmeißt du Daten weg. hier ist jetzt die Frage, was du wirklich willst:

a) Die items sind inhaltlich alle wichtig und die Frage besteht, welche / wieviele latente Variable stecken dahiner. In dem Fall machst du tatsächlich ein Modell mit 10 indikatoren und versuchst
anschließend (nach dem das Modell wahrscheinlich gescheitert ist

), zu explorieren, welche Alternativmodelle möglich sind.

b) Wenn Dein Interesse darin besteht, deine ursprünghliche latente Variable zu messen und die items lediglich Mittel zum Zweck sind, dann ist das Ziel, die konzeptionell validesten items auszuwählen.
Wenn du Dein Körpergewicht messen willst und dafür a) das rating eines Freundes, b) eine Waage und c) die prozentuale / cm - Veränderung einer Matratze, wenn du dich draufstellst zu nehmen, nimmst du
doch auch die Waage, weil Deine Theorie sagt, dass diese am validesten (im Sinne von Korrektheit des kausalen Modells und dem Ausmaß von Messfehler) sein dürfte und nicht die anderen beiden?

Damit hab ich die Frage 2 schon angeschnitten: Es geht erst mal um eine klare Konzeption der latenten Variable: löse dich von solchen Begriffen wie "Konstrukte", sondern mach dir klar, dass eine latente Variable
etwas repräsentieren soll, was a) eine empirische Entität ist, b) kausale Implikationen hat und b) singular / eindimensional ist.

Überlege auf theoretischer Basis genau, was dies ist und wähle diejenigen indikatoren aus, die genau diese Variable reflektieren. Die meisten Skalenentwicklungen haben items, die sprachlich/konzeptionell sehr heterogen sind und somit
multidimensional sind. Wenn du sprachliche subsets von items hast, kann das schnell dazu führen, dass du auch auf latenter Ebene Multidimensionalität hast (damit sind wir wieder beim oberen Punkt).

Ich verstehe die Frage nicht ganz....meine drei latenten Variablen würden nochmal auf einen übergeordnete Variable hinweisen. Also z.B. übergeordnet: Lesebegeisterung, darunter die drei Faktoren Lesemenge, Lesetiefe und Lesegeschwindigkeit. Variablen wären dann: ich lese sehr schnell, ich lese sehr gern, ich kann manchmal ein Buch nicht mehr weglegen, ich lese oft stundenlang, für mich gibt es nichts schöneres als Lesen. Oder so.

Vorsicht vor solchen unklaren Begriffen wie "hinweisen". meinst du, dass "Lesebegeisterung" einen Effekt auf die anderen 3 latenten Variablen hat? Dann wär das beste, alle 4 latenten Variablen durch 2-3 Indikatoren zu messen und ein SEM zu modellieren. Achte dabei darauf, dass die Indikatoren spezifisch für IHRE latente Variable sind. Schnell hat man mal ein item formuliert, dass zwar klar eine latente Variable misst, aber durch einen bestimmten Aspekt in der Formulierung AUCH eine andere. Das ist nicht unbedingt problematisch, führt aber zu einem misfit, wenn man diesen zusätzlichen Effekt nicht modelliert. Dies ist ein weiteres Problem bei der Verwendung vieler Indikatoren: Die Chancen dafür steigen mit der Anzahl der Variablen. Man handelt sich Probleme ein, ohne einen Vorteil davon zu haben.

Gruß
Holger

STATISTIK-FORUM.de

Hauptkomponenten?

Hauptkomponenten?

Re: Hauptkomponenten?

Re: Hauptkomponenten?

Re: Hauptkomponenten?

Re: Hauptkomponenten?

Wer ist online?