Fehlende Werte - Imputation oder Alternativlösung?

Alle Verfahren der Regressionanalyse.

Fehlende Werte - Imputation oder Alternativlösung?

Beitragvon AmerigoVespucci » Sa 11. Aug 2018, 11:25

Hey!

Ich stehe gerade auf dem Schlauch und vermute, dass ich irgendwie gerade zu doof bin, eine sehr simple Antwort auf mein Problem zu finden.

Ich arbeite gerade mit SPSS und führe eine lineare Regressionsanalyse durch. Ich habe als Fälle die Jahre 2008 bis 2018 und 4 AV sowie eine UV, wobei ich für jede AV eine Regression durchführe.

Jedenfalls habe ich nun das Problem, dass ich für das Jahr 2018 für die AV und die UV jeweils nur Daten für Januar bis Juni habe. Das heißt, mir "fehlt" sozusagen die zweite Jahreshälfte. Eine Regression, bei der ich nur das halbe 2018 einbeziehe, macht ja keinen Sinn, wenn alle anderen Jahre komplett sind. Aber ich würde 2018 gerne trotzdem in die Analyse mit einbeziehen.

Da ich schon mal eine - etwas anders ausgestaltete - lineare Regression durchgeführt habe, dachte ich eigentlich, dass die Lösung meines Problems eine Imputation wäre. Das hatte ich bei der letzten Regressionsanalyse auch schon mal erfolgreich durchgeführt.

Wenn ich jetzt aber in SPSS eine Imputation durchführe, erkennt SPSS zwar, dass überall 1 Wert fehlend ist, aber es wird nichts imputiert. Warum ist das so? Weil meine Fallzahl zu gering ist, eine Imputation in dem Kontext keinen Sinn macht oder liegt sonst irgendein Fehler vor, dass ich irgendwelche Einstellungen nicht richtig setze oder so?

Was ich mich nun frage bzw. mir denke ist, ob es nicht eine einfachere Methode gibt, wie man die Daten für die zweite Jahreshälfte "hochrechnen" bzw. umrechnen kann. An sich wäre ja der stupideste Gedanke, einfach alles mal zwei zu nehmen. Oder mit dem arithmetischen Mittel oder Median zu arbeiten. Aber mit Blick auf den Datensatz von 2018 macht das aus meiner Sicht auch keinen Sinn, weil die Zahlen nicht konstant sind, sondern eine unregelmäßig schwankende Entwicklung haben, wobei die Zahlen mehrheitlich von Monat zu Monat sinken. Das heißt, ich müsste schon irgendein ausgeklügelteres Hochrechnungsverfahren anwenden, ich bräuchte irgendeinen Gewichtungsfaktor. (Und ich dachte eigentlich, dass genau so auch eine Imputation funktioniert, dass eine Imputation quasi einfach nur ein ausgeklügelteres Hoch- oder Umrechnungsverfahren ist, simpel ausgedrückt (wobei mir klar ist, dass die Imputation eigentlich einfach eine Regression in der Regression ist)).

Also, ich würde mich sehr über einige Ideen freuen, besten Dank!
AmerigoVespucci
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 24. Mär 2016, 14:52
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte - Imputation oder Alternativlösung?

Beitragvon bele » So 12. Aug 2018, 11:46

Hi!

Imputation ist ein mehr oder weniger ausgeklügeltes Hochrechnungsverfahren - die Frage ist, ob Du danach noch tatsächliche Daten untersuchst oder nur ausgedachte. Denn egal, wie ausgeklügelt der Imputationsmechanismus ist - er gibt immer nur soviel Information ab, wie er vorher aufgenommen hat, dh. er ersetzt keine echten Beobachtungen. Wenn Dir für Juli bis Dezember alle Daten aus 2018 fehlen, dann macht es i. d. R. nicht viel Sinn, per Imputation mehr oder weniger ausgeklügelt Daten dazu zu erfinden. Wenn Du aus 7-12/2018 ganz viele andere Daten hättest, und nur z. B. eine von vielen Variablen fehlte, dann würde es vielleicht Sinn machen, diese eine Variable dazu zu imputieren, um all die anderen, echten, informationshaltigen Beobachtungen aus diesem Zeitraum nicht zu verlieren.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 3186
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 10
Danke bekommen: 656 mal in 646 Posts

Re: Fehlende Werte - Imputation oder Alternativlösung?

Beitragvon AmerigoVespucci » So 12. Aug 2018, 12:51

Vielen Dank, Bernhard!

Aber gibt es denn irgendeine andere wirklich statistische Methode, mit der ich die fehlenden Daten errechnen könnte? Oder sollte ich eine einfache Prozentrechnung händisch durchführen? Ich habe ja die Daten von Januar bis Juni 2018. Meine Idee wäre nun, dass ich einfach die durchschnittliche prozentuale pro Monat ausrechne und anhand dieser die verbleibenden Monate berechne. Sinnvoll oder nicht? Oder sollte ich auf das Jahr 2018 einfach komplett verzichten? (Wobei meine Überlegung wäre, dass ich einfach verschiedene Modelle berechne in der Arbeit aufführe)
AmerigoVespucci
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 24. Mär 2016, 14:52
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte - Imputation oder Alternativlösung?

Beitragvon bele » So 12. Aug 2018, 13:11

AmerigoVespucci hat geschrieben:Aber gibt es denn irgendeine andere wirklich statistische Methode, mit der ich die fehlenden Daten errechnen könnte?

Fehlende Beobachtungen kann man nicht errechnen, nur beobachten. Daten zu errechnen, die für fehlende Beobachtungen einstehen können, nennt man Imputation. Dafür gibt es verschiedene Methoden.

Oder sollte ich eine einfache Prozentrechnung händisch durchführen?
I
Ohne Kenntnis von Daten, Hintergrund und Fragestellung kann Dir niemand sagen, ob Du eine einfache Prozentrechnung durchführen solltest. "Händisch" ist die Rechenmethode, die am häufigsten mit Rechen- und Flüchtigkeitsfehlern einher geht. Generell ist es daher meist sinnvoll, das zu vermeiden.

Meine Idee wäre nun, dass ich einfach die durchschnittliche prozentuale pro Monat ausrechne und anhand dieser die verbleibenden Monate berechne. Sinnvoll oder nicht?

Wenn keiner von uns weiß, was für Daten Du da hast, wie die erhoben wurden, wozu Deine Analyse dient und was Du damit rechnen willst, wie sollen wir da beurteilen, ob das sinnvoll ist? Was ich weiß: Falls Du aus dem durchschnittlichen Umsatz von Schokoweihnachtsmännern in den Monaten Januar bis Juni auf den Umsatz von Schokoweihnachtsmännern in den Monaten Juli bis Dezember schließen willst, dann wird das in die Hose gehen. Denkbar wäre aber, dass Deine Fragestellung mit Schokoweihnachtsmännern gar nichts zu tun hat.


Oder sollte ich auf das Jahr 2018 einfach komplett verzichten?

Dann würdest Du immerhin keine Beobachtungen auswerten, die es gar nicht gegeben hat. Genau das würde ich machen, wenn dadurch nicht andere, wertvolle Beobachtungen verloren gehen. Aber auf das Thema bist Du ja nicht weiter eingegangen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 3186
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 10
Danke bekommen: 656 mal in 646 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 4 Gäste