Hi Steffi,
erst mal zum grundlegenden Verständnis. Es handelt sich herbei nicht um Korrelationen zwischen den Items, sondern zwischen den Fehlerterm-Variablen, die eine Reflektion aller weiteren Ursachen (inkl. random error) eines Indikators sind. Gibt es eine Fehlerkovarianz heißt dass, dass zwei Indikatoren entweder eine oder mehrere gemeinsame Faktoren messen (zusätzlich zur modellierten), die aber eben nicht im Modell drin sind. Eine andere Möglichkeit können Serieneffekte sein (ein item beeinflusst das andere). Das Problem dabei ist, dass Fehlerkovarianzen eben auch auftreten, wenn das gesamte Faktormodell grundsätzlich fehlspezifiziert ist, und zu wenig Faktoren spezifiziert wurden. Daher unterschlägt die Befolgung der Modifikationsindizes diese Möglichkeit. In diesem Fall agieren die Fehlerkovarianzen quasi als Ventil, durch die der Übertrug aus einem grundsätzlich falsch konzipierten Kanalsystems. Man kann also leicht ein falsches Modell zurechtfitten durch Freisetzung der Fehlerkovarianzen. Außerdem sind unkorrelierte Fehler quasi das Rückrat der gesamten Modelltestung (die berühmte "lokale stochastische Unabhängigkeit"). Fehler freizusetzen unterläuft und schwächt allerdings den Test.
Das heißt alles nicht, dass Grund #1 oben nicht zutreffen kann und das Modell eigentlich ok ist - bis auf die übersehenen Fehlerkovarianzen - nur hat man keine Möglichkeiten, beide Varianten zu testen (ich komm später noch auf eine). Ein Problem bleibt aber selbst im günstigsten Fall (d.h. das Modell ist korrekt): Wie oben beschrieben, können Fehlerkovarianzen ausgeschlossene weitere Faktoren andeuten. Die sollten dann aber eigentlich explizit im Modell auftauchen (als wirkliche Faktoren). Das mögen die Faktoren-Leute natürlich nicht, weil das Ergebnis dann sehr komplex aussieht und weit weg von der Einfachstruktur ist
Und damit ist auch ein prinzipielles Problem der items-Eliminierung verbunden: Mit dem Killen des Items killst du halt auch den Faktor. ABER: Ich neige selbst aus pragmatischen Gründen dazu, Items zu eliminieren, und zwar dann, wenn das Messmodell nur einen einzigen Zweck hat: Meine Faktoren von Interesse zu messen. Und so lange das Modell fittet und die Ladungen vielversprechend sind, bin ich da zuversichtlich. Allerdings hab ich damit auch Bauchschmerzen, weil der sekundäre Fit ein schwaches Belegt für das Modell ist (immerhin hat man die Daten verändert im Angesichts des misfits).
Parceling find ich unsauber, weil du damit die Probleme der Skala unter den Teppich kehrst. Das solche in der Persönlichkeit üblichen Skalen nicht fitten ist kein Geheimnis. Das kümmert dort aber keinen.
Ich hoffe, das hilft.
Grüße
Holger