Angabe Sysmis relevant für Berechnung log. Regression?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Angabe Sysmis relevant für Berechnung log. Regression?

Beitragvon MelUni » Do 15. Okt 2020, 13:20

Hallo!
Eine allgemeine Frage: wird bei SPSS mit Angaben wie Sysmis oder definierten missings gerechnet?
Beim erstellen neuer Variablen aus einem bestehenden Panel-Datensatz habe ich nur die für mich relevanten Variablenausprägungen (0=nein, 1=ja)und Erhebungswellen in der Syntax für die neue Variable benannt. Zum Beispiel (SPSS-Syntax):
IF (Var1Welle1~=1 I Var1Welle2~=1 I Var1Welle3~=1) VarNeu=0
IF (Var1Welle1=1 I Var1Welle2=1 I Var1Welle3=1) VarNeu=1
Execute.

Dann habe ich mir die Häufigkeiten ausgeben lassen und mit den entsprechenden ersten 3 Wellen der Ursprungsvariable verglichen (als Vergleichswert habe ich die Angaben der Merkmalsausprägungen der ersten 3 Wellen aufsummiert).

Um es konkret zu machen, hier ein weiteres Beispiel:
Variable tf15470, Wellen 9+10, Häufigkeiten hierüber abrufbar: https://www.neps-data.de/Portals/0/NEPS ... ook_de.pdf pdf-Seite 2672
Syntax:
IF (tf15470.9~=1 I tf15470.10~=1) tf15470n=0
IF (tf15470.9=2 I tf15470.10=2) tf15470n=0
IF (tf15470.9=1 I tf15470.10=1) tf15470n=1
(Achtung: Spezifikum bei Panel-Datensätzen: hier wurden zufällig in der neunten Welle Personen befragt, die nicht in der 10. Welle befragt wurden - und umgekehrt - so lässt sich diese Angabe aufsummieren, da keine Person doppelt befragt wurde)

Output SPSS im neu erstellten Datensatz (tf15470n -> Zusammenfassung der Wellen 9+10)
N gültig: 6003 korrekt
Fehlend (System): 10.422 (Stimmt nicht eindeutig überein)
0=nein: 4.572 (4151+421) korrekt
1=Ja: 1.431 (1329 + 102) korrekt


Die relevanten Angaben (0=nein, 1=ja) sind bei der neuen Variable in der Häufigkeit korrekt.
In der Ursprungsvariable gab es verschiedene Formen von definierten Missings (-54, -97 etc.), diese werden nun unter Fehlende Werte / System fehlend zusammengefasst. Fehlende Werte sind in der Datenansicht leere Zellen.

Ist das schlimm für die Berechnung von CramersV, Chi-Quadrat oder logistischen Regressionen? Gerade bei logistischen Regressionen "rechnet" man bei nominalen Variablen doch sowieso nur mit dem ausgewählten Angabe (ja / Augenfarbe blau = 1)

Muss ich das noch mal machen?
Wie hätte ich die Syntax bei SPSS ergänzen sollen? Mit so etwas wie "else=sysmis" ?
Gibt es eine Generalisierung? Denn es sind verschiedene Variablen mit unterschiedlich definierten missings. -> wäre ein großer Aufwand. Ich habe die Spezifizierung nicht interessierender Werte weggelassen. Meiner Recherche nach (und in der Praxis) werden diese dann automatisch als system-fehlend definiert. Im Nachhinein frage ich mich aber, ob das "wegdrücken" der nicht interessanten/relevanten Variablen (verschiedene Formen von missings) als "system - fehlend" irgendwie die Auswertung beeinflusst...

Über eine Rückmeldung würde ich mich freuen.
MelUni
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Fr 10. Jul 2020, 16:28
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 41 Gäste