Fehlende Werte

Fragen, die sich auf kein spezielles Verfahren beziehen.

Fehlende Werte

Beitragvon mjane23 » So 9. Jul 2023, 22:06

Hallo zusammen,

ich habe in meinem Datensatz eine zentrale Variable (zurückgelegte Distanz in Metern), die ich als Kennwert für die körperliche Leistungsfähigkeit nutzen möchte. Diese zurückgelegte Distanz konnte aber aufgrund knapper personeller Ressourcen nicht immer gemessen werden, sodass ich in meinem Datensatz (N = 179) auf der Variable fehlende Werte für insgesamt 37 Personen habe. Die Missings sind aber eben zufällig zustande gekommen. Ich würde die Variable gerne als Prädiktor in einer logistischen Regression nutzen. Kann ich das auf Basis der vollständigen Fälle tun oder muss ich fehlende Werte imputieren? Und wie sinnvoll ist es, den Mittelwert oder Median der Stichpronbe als Ersatz zu nutzen?
In der Regression sind auch weitere Prädiktoren enthalten, auf denen es keine oder nur 1-2 Missings gibt. Wenn ich mein Modell ohne Imputation spezifiziere, werden die NAs von R einfach ignoriert? Oder rechnet R automatisch mit einer kleineren Stichprobe. Sorry, für die blöde Frage. Ich habe mir den Kopf sehr lange darüber zerbrochen und sehe gerade den Wald vor lauter Bäumen nicht mehr...

Liebe Grüße
mjane23
mjane23
Beobachter
Beobachter
 
Beiträge: 10
Registriert: So 9. Jul 2023, 12:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte

Beitragvon bele » Mo 10. Jul 2023, 06:56

Hallo,

eine logistische Regression kann NA nicht verarbeiten. Also werden Fälle mit NA vor der Regression ausgeschlossen.
Welche Art der Imputation gewählt wird hängt von den Umständen ab. Wenn Du einen Get-Up-And-Go und einen 6-minute-walk Test hast, dann macht es mehr Wert, das eine aus dem anderen vorher zu sagen als Mittelwerte oder Mediane zu verwenden, weil beide Fitness messen. Je größer die Studie, umso spannender wird auch Hotdeck-Imputation.

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Re: Fehlende Werte

Beitragvon mjane23 » Mo 10. Jul 2023, 14:02

Hallo,
also Daten einfach auszuschließen, erscheint nicht sinnvoll? Ich habe für die körperliche Leistungsfähigkeit nur einen Test, d. h. ich kann das eine nicht aus dem anderen vorhersagen. Für ein Hotdeck-Verfahren ist meine Stichprobe vermutlich zu klein. Mir bleiben dann nur die beiden Optionen die Regression mit NAs zu rechnen oder Mittelwert/Median einzusetzen. Falls ich mich für Ersteres entscheide, werden alle Fälle mit NAs gelöscht, also die gesamte Zeile inkl. anderer Variablen oder nur der eine Wert auf der relevanten Variable?
Vielen Dank und viele Grüße,
mjane23
mjane23
Beobachter
Beobachter
 
Beiträge: 10
Registriert: So 9. Jul 2023, 12:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte

Beitragvon bele » Mo 10. Jul 2023, 20:02

Wenn da ein NA in der Zeile ist, dann wird diese Zeile nicht berücksichtigt. Sonst bräuchte man ja keine Imputation. Da Deine NA completely at random sind ist das ok, aber die Daten werden halt nicht genutzt.

Eine weitere Variante wäre, dir NA mehrfach mit Zufallsvariablen zu füllen und dann schauen, wie stark des Ergebnis schwankt. Es gibt halt immer noch ein Imputationsverfahren mehr als man kennt.

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Re: Fehlende Werte

Beitragvon mjane23 » Di 11. Jul 2023, 12:55

Hallo Bernhard,

danke für deine Antwort und sorry wegen meiner Rückfrage: Wenn die Zeile nicht berücksichtigt wird aufgrund von NA, heißt das, dass die Werte aus der Zeile auch für andere Prädiktoren nicht genutzt werden? :( Das verkleinert die Stichprobe ja voll, weil die NAs auf unterschiedlichen Variablen und unterschiedlichen Zeilen liegen..

LG
mjane23
mjane23
Beobachter
Beobachter
 
Beiträge: 10
Registriert: So 9. Jul 2023, 12:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte

Beitragvon PonderStibbons » Di 11. Jul 2023, 13:56

Ja, das verkleinert die Stichprobe und die power.

Mittelwertersetzung verbietet sich, weil es die Daten verzerrt (Standardabweichungen und Standardfehler
werden künstlich verringert). Also rechnest Du mit Multiple Imputation und dem vollen Datensatz, oder mit
dem verkleinerten Datensatz n=142 (was bei MCAR leicht zu rechtfertigen ist und die Probleme selbst von noch
so gut imputierten/ersetzten Werten umginge).

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11261
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

folgende User möchten sich bei PonderStibbons bedanken:
mjane23

Re: Fehlende Werte

Beitragvon bele » Di 11. Jul 2023, 14:37

Hmmm,

ich hatte bereits geschrieben
eine logistische Regression kann NA nicht verarbeiten. Also werden Fälle mit NA vor der Regression ausgeschlossen.

und in meinem anderen Post
Wenn da ein NA in der Zeile ist, dann wird diese Zeile nicht berücksichtigt.

und jetzt fragst Du ein drittes Mal. Beim dritten Mal wird die Antwort nicht anders. Bitte erklär mir, was Du an den ersten beiden Antworten nicht verstanden hast, dann versuche ich mich gerne an einer angepassten Antwort.

Ändert aber alles nichts daran, dass Du Dich für eine logistische Regression entschieden hast und die nunmal mit unvollständigen Datensätzen nicht funktioniert. Wie auch?

Entweder Du rechnest nur mit 169 minus 37 minus die Fälle, in denen andere Prädiktoren fehlen, oder Du lässt die Spalte mit den 37 Missings auf der Prädiktorseite weg oder Du versuchst Dich an einer sinnvollen Imputation, immer mit erhöhtem Aufwand und dem Problem, dass diese zu Verzerrungen führen könnte und dem zusätzlichen Erklärungsaufwand.

https://de.wikipedia.org/wiki/Imputation_(Statistik)

Bei Analyse und Verarbeitung von missing data in R gibt es eine Reihe hilfreicher Pakete. Du kannst also Deine Analyse hochwertig darstellen und es gibt keine Ausrede, Mittelwertimputation deshalb zu betreiben, weil man nicht weiß, wie anderes ginge:
Naniar: https://cran.r-project.org/web/packages ... aniar.html
VIM Grafiken: https://cran.r-project.org/web/packages ... alImp.html
Donor based Imputation Methods: https://cran.r-project.org/web/packages ... orImp.html
Simputation: https://cran.r-project.org/web/packages ... intro.html
Multiple Imputation mit mice: https://www.gerkovink.com/miceVignettes ... thods.html

Aus dem letzten Link muss ich noch einmal kurz zitieren:
We have seen that (multiple) imputation is straightforward with mice. However, don’t let the simplicity of the software fool you into thinking that the problem itself is also straightforward.


Bei PonderStibbons lese ich zwischen den Zeilen eine gewisse Tendenz, nur mit den vollständigen Zeilen zu rechnen, ich hätte eine gewisse Tendenz, diese Spalte zu streichen. Kommt aber natürlich alles immer auf die Details an.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Re: Fehlende Werte

Beitragvon mjane23 » Di 11. Jul 2023, 20:45

@PonderStibbons: Vielen Dank!

@Bernhard: Ich wollte einfach nur sicher gehen, weil aus deiner Antwort für mich nicht klar hervorging, ob lediglich eine Zeile aus der betreffenden Spalte gelöscht wird oder die gesamte Zeile/der gesamte Fall. Mag sein, dass du und andere Leser*innen es eindeutig verstanden hätten. Ich habe mich für die Rückfrage entschuldigt, aber es ist mir wichtig, das richtig zu verstehen und umzusetzen, weil ich großen Wert auf saubere und nachvollziehbare Forschung lege.
Dass Mittelwertimputation vermieden werden sollte, habe ich im Laufe meiner Recherche auch verstanden. Vorgestern war ich noch nicht so weit. Und dafür würde ich mich nur entscheiden, wenn nichts anderes ginge und das Vorgehen gut begründbar wäre. Auf keinen Fall, weil ich es mir einfach machen möchte und weil ich nicht weiß, wie es besser geht.

Danke für die Links. Mit mice, naniar, VIM und Amelia arbeite ich mittlerweile in R. Die beiden anderen Links schaue ich mir mal an.

LG
mjane23
mjane23
Beobachter
Beobachter
 
Beiträge: 10
Registriert: So 9. Jul 2023, 12:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste