Seite 1 von 1

Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 13:44
von Gismogasmo
Hallo zusammen,

ich habe mal eine Frage nach einem Lösungskonzept. Folgendes Problem:

Ich habe 4 Variablen, von denen allerdings einige Lücken aufweisen. Sprich, es gibt fehlende Werte.
Dazu habe ich 20 weitere Variablen ( ebenfalls mit fehlenden Werten), mit dessen Hilfe ich die ersten 4 Variablen für die fehlenden Fälle schätzen soll.
Sprich, ich muss einen Weg finden die 4 Variablen mithilfe der 20 Variablen zu beschreiben.

Im Grunde läuft das doch auf eine Regression heraus oder? Wenn ja, wie finde ich dann die Regressionskoeffizienten?

Danke schonmal!
Gismo

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 14:49
von PonderStibbons
Wie lautet denn das Thema der Studien, wie wurden die Daten erhoben, wie groß ist die Stichprobe, was messen die 4 Variablen konkret und auf welchem Skalenniveau, wie groß ist der Anteil fehlender Werte bei den 4 Variablen, wie viele Probanden haben mindestens 1 fehlenden Wert, was messen die 20 anderen Variablen? Und ist es richtig, dass Deine Frage lautet, wie man mithilfe der 20 zusätzlichen Variablen die fehlenden Werte bei den ersten 4 Variablen ersetzen kann? Regression wäre dann schonmal nicht optimal.

Mit freundlichen Grüßen

PonderStibbons

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 15:18
von Gismogasmo
Hi,

vielen Dank für die schnelle Antwort. Es geht um Konsumverhalten. Die 4 Variablen die ich habe sind Alter (5 Klassen), Einkommen(5 Klassen), Bildung(5 Klassen) und Geschlecht. Die anderen Variablen sind nicht benannt. Sind alles Werte zwischen 0 und 1000. Es gibt keinen Probanden mit allen Werten. Insgesamt beträgt der Stichprobenumfang 20000.

Ja, genau. Das ist richtig ! :)

LG Gismo

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 16:36
von strukturmarionette
Hi,

Die anderen Variablen sind nicht benannt.

- Ist das ernstgemeint?

Gruß
S.

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 18:19
von Gismogasmo
Ja, leider. Ich hab mir das nicht ausgesucht. Ich weiß nicht was das für Variablen sind. Außerdem sind diese total unvollständig. Die bekomme ich auch mit einer Hot Deck Imputation beispielsweise nicht wirklich gebändigt.

VG

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 19:25
von PonderStibbons
Da wäre ein bißchen Kontext vielleicht nützlich. Was sind das für Daten,
woher stammen sie, wer hat Dir den Arbeitsauftrag gegeben und was ist
der Zweck der Übung?

Mit freundlichen Grüßen

PonderStibbons

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 19:29
von Gismogasmo
Hi,

das ist eine Übung für einen Statistik-Kurs. Woher diese genau stammen weiß ich nicht. Zweck ist einfach üben. :)

LG

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 20:02
von PonderStibbons
Damit kann ich leider so gar nichts anfangen. Das Anspruchsniveau an die Lösung ist unbekannt, die Daten sind trotz zudem sehr schlecht beschrieben... - Falls es um die Auswahl von Regressionsverfahren geht, da kommen binär logistische, ordinal logistische und nominale in Betracht, je nach Skalenniveau der abhängigen Variable.

Mit freundlichen Grüßen

PonderStibbons

Re: Variable vorhersagen

BeitragVerfasst: Di 21. Mär 2017, 20:25
von Gismogasmo
Genau das ist auch mein Problem. Es gibt einfach keine weiteren Informationen. Ich habe mal durchgeschaut. Insgesamt sind 80% der Daten missing values.. Da macht eigentlich gar nichts wirklich sinn oder? Es gibt keine Spalte und keine Zeile die komplett ist.

Danke nochmal!

Re: Variable vorhersagen

BeitragVerfasst: Mi 22. Mär 2017, 13:03
von bele
Also ist das alles mehr so eine Art Knobelspiel und weil man keine Voraussetzungen kennt, kann man auch keine übersehen. Bequemer kann man es doch kaum haben. Unter diesem Umständen würde ich das als Regressionsaufgabe sehen. Es gibt Klassifikationsbäume und Random-Forest-Regressionen, die mit fehlenden Werten sehr gut umgehen können, weil sie Alternativ-Splits machen, wo Daten fehlen (ctree() mit maxsurrogate > 0: https://cran.r-project.org/web/packages ... /ctree.pdf ). Sowas könnte man machen. Oder halt eine Reihe von linearen Regressionen unter Auslassung der jeweils fehlenden Variable.

LG,
Bernhard