Seite 1 von 1

Multivariate Regressionsanalyse - unabhängige Variable Dummy

BeitragVerfasst: Do 15. Okt 2020, 12:20
von Toevre
Hallo Leute,

vermutlich gehen vielen die von Anfängern im Bereich Statistik gestellten Fragen auf den Geist.
Jedoch ist meine Professorin momentan nicht erreichbar und ich würde gerne mit meiner Arbeit vorankommen.
Daher habe ich gehofft, hier ein wenig dazulernen zu können.

Zu mir: Ich hatte bereits 2 Semester Statistik und 4 Semester Mathematik (für Wirtschaftswissenschaftler, also niedrigeres Niveau), jedoch ist das schon eine Weile her.

Mein Vorhaben:

Ich möchte eine multivariate Regression durchführen um den Einfluss von verschiedenen Faktoren auf die Entscheidung sich weiterzubilden (nach längerer Zeit im Beruf) zu messen. Als abhängige Variablen kommen für meine Datensätze beispielsweise Alter, Geschlecht, Anzahl der Kinder und das Einkommen in Frage.
Als unabhängige Variable die "Weiterbildungsentscheidung".

Nun zu meiner Frage und dem Verständnisproblem:

Ist es denn möglich und/oder sinnvoll die unabhängige Variable "Weiterbildung" als Dummy zu verwenden.
(z.B. 0 = nach mindestens x Jahre im Beruf keine Weiterbildung; 1 = nach min. x Jahren im Beruf eine Weiterbildung vollzogen)
Über die Mindestanzahl an Jahren im Beruf und die Durchführbarkeit mit der vorhandenen Stichprobe mache ich mir später genauere Gedanken.

Ist es sinnvoll die Anzahl der Kinder mit einzubeziehen oder sollte man diese Variable ebenfalls als Dummy verwenden?

In welcher Form kann man das Geschlecht mit einbeziehen?

Ich habe selber versucht diese Regression schriftlich durch zu rechnen, werde jedoch nicht ganz schlau daraus, was sinnvoll ist.
Vielen Dank im Voraus!

LG

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Do 15. Okt 2020, 12:54
von bele
Hallo Toevre,

Toevre hat geschrieben:vermutlich gehen vielen die von Anfängern im Bereich Statistik gestellten Fragen auf den Geist.


Ja, vielleicht. Wäre eine Erklärung dafür, dass es von den vielen die hier fragen so wenige gibt, die bleiben um auch mal zu antworten.

Ist es denn möglich und/oder sinnvoll die unabhängige Variable "Weiterbildung" als Dummy zu verwenden.


Soll das eine unabhängige oder die abhängige Variable sein? Als unabhängige ohne weiteres. Um eine binäre Variable als abhängige zu untersuchen müsstest Du Dich mit der sogenannten Logistischen Regression beschäftigen. Die verbindet lineare Regression und binäre abhängige miteinander.

Ist es sinnvoll die Anzahl der Kinder mit einzubeziehen oder sollte man diese Variable ebenfalls als Dummy verwenden?


Ich würde erwarten, dass der Unterschied zwischen "keine Kinder" und "ein Kind" für Weiterbildungsentscheidungen deutlich größer ist als der Übergang von "ein" auf "zwei" Kinder. Bei ausreichender Fallzahl würde ich mich daher eher für Dummycodierung entscheiden aber da hast Du sicher einen gewissen Spielraum.

In welcher Form kann man das Geschlecht mit einbeziehen?


Als Dummyvariable, ggf. auch mit Interaktionen. Willst Du Männern und Frauen nur unterschiedliche y-Achsenabschnitte zubilligen oder auch unterschiedliche Steigungen? Ich könnte mir vorstellen, dass sich das Vorhandensein von Kindern bei Frauen ganz anders auswirkt als beim Männern und daher solltest Du abwägen, ob Du da nicht einen Interaktionsterm ins Modell nimmst. Wenn Du von Interaktionstermen bisher nichts wissen solltest, müsstest Du Dich m. E. allein wegen dieser einen Frage schon damit beschäftigen.


LG,
Bernhard

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Do 15. Okt 2020, 15:21
von Toevre
Hallo Bernhard,

erstmal danke für deine schnelle und kompetente Antwort.

Soll das eine unabhängige oder die abhängige Variable sein? Als unabhängige ohne weiteres. Um eine binäre Variable als abhängige zu untersuchen müsstest Du Dich mit der sogenannten Logistischen Regression beschäftigen. Die verbindet lineare Regression und binäre abhängige miteinander.


Tatsächlich soll die Variable "Weiterbildung" binärer Natur sein und den abhängigen Teil meiner Regression darstellen.
(Habe mich vorhin mit abhängig/unabhängig im Text vertan)
Es freut mich sehr, dass du dafür sofort eine "Lösung" parat hast. Dazu stellen sich mir nun zwei Fragen:

1. Würdest du in der zu untersuchenden Tatsache eine logistische Regression empfehlen oder fällt dir zufällig ein anderer Weg ein um eine klassische multivariate
Regression durchführen zu können? (Mir fällt spontan leider keine andere Möglichkeit ein)

2. Ist das Ergebnis der logistischen Regression ähnlich interpretierbar bzw. bietet es ein ähnlich hochwertiges Ergebnis für eine Empirische Analyse?
Wie es mir scheint (bitte korregiere mich falls ich falsch liege), ist das Ergebnis einer logistischen Regression als Wahrscheinlichkeit zu interpretieren,
während eine "normale" Regression die tatsächliche Änderung der abhängigen Variable durch die unabhängigen Variablen im Vergleich zum Mittelwert angibt.

Ich würde erwarten, dass der Unterschied zwischen "keine Kinder" und "ein Kind" für Weiterbildungsentscheidungen deutlich größer ist als der Übergang von "ein" auf "zwei" Kinder. Bei ausreichender Fallzahl würde ich mich daher eher für Dummycodierung entscheiden aber da hast Du sicher einen gewissen Spielraum.


Sehr gut nachvollziehbar, damit hast du recht. Eventuell eine Möglichkeit für den Feinschliff mit Sensitivitätsanalysen.


Als Dummyvariable, ggf. auch mit Interaktionen. Willst Du Männern und Frauen nur unterschiedliche y-Achsenabschnitte zubilligen oder auch unterschiedliche Steigungen? Ich könnte mir vorstellen, dass sich das Vorhandensein von Kindern bei Frauen ganz anders auswirkt als beim Männern und daher solltest Du abwägen, ob Du da nicht einen Interaktionsterm ins Modell nimmst. Wenn Du von Interaktionstermen bisher nichts wissen solltest, müsstest Du Dich m. E. allein wegen dieser einen Frage schon damit beschäftigen.


Interaktionsterme sind mir bisher nur durch Differenz-von-Differenzen Ansätzen bekannt und ich kann diese noch nicht ganz einordnen. Wäre es hierbei einfacher die Regression sowohl mit männlichen als auch mit weiblichen Personen durchzuführen und im Nachhinein die unterschiedlichen Ergebnisse zu vergleichen oder kann man dadurch noch keine direkten Rückschlüsse auf den Einfluss des Geschlechts auf die Entscheidung sich weiterzubilden ziehen?

LG,

Toevre

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Do 15. Okt 2020, 17:21
von bele
Hallo Toevre,

Toevre hat geschrieben:Es freut mich sehr, dass du dafür sofort eine "Lösung" parat hast. Dazu stellen sich mir nun zwei Fragen:

1. Würdest du in der zu untersuchenden Tatsache eine logistische Regression empfehlen oder fällt dir zufällig ein anderer Weg ein um eine klassische multivariate
Regression durchführen zu können? (Mir fällt spontan leider keine andere Möglichkeit ein)


Es gibt meistens mehrere Wege, wie man sich einem Problem nähern kann. In diesem Fall (Regression mit mehreren unabhängigen und einer dichotomen abhängigen) ist die logistische Regression aber das Standardverfahren und wer was anderes machen will, muss das begründen. Das Prinzip der logistischen Regression hast Du nach drei Youtube-Videos darüber verstanden und dann brauchst Du nur noch ein Computerprogramm.

2. Ist das Ergebnis der logistischen Regression ähnlich interpretierbar bzw. bietet es ein ähnlich hochwertiges Ergebnis für eine Empirische Analyse?


So hochwertig wie eine nicht passende Regressionsform, die anstelle von Ja/Nein Werte von Minus-unendlich bis plus-unendlich produziert?
Die logistische Regression ist anders zu interpretieren als eine kleinste-Quadrate-Regression. Beispielsweise gibt es das klassische R² nicht. Das muss man sich halt anlesen.

Wie es mir scheint (bitte korregiere mich falls ich falsch liege), ist das Ergebnis einer logistischen Regression als Wahrscheinlichkeit zu interpretieren,
während eine "normale" Regression die tatsächliche Änderung der abhängigen Variable durch die unabhängigen Variablen im Vergleich zum Mittelwert angibt.


Die logistische Regression gibt Dir für jede Konstellation von unabhängigen Variablen eine Wahrscheinlichkeit aus, dass die Weiterbildungsentscheidung "Ja" lautet. Was gibt Dir denn die kleinste-Quadrate Regression aus? "Wird Annika sich für eine Weiterbildung entscheiden?" Antwort: "2,3" -- ich kann Dir versichern, dass 2,3 keinesfalls die tatsächliche Änderung der Weiterbildungsentscheidung ist.

Wäre es hierbei einfacher die Regression sowohl mit männlichen als auch mit weiblichen Personen durchzuführen und im Nachhinein die unterschiedlichen Ergebnisse zu vergleichen oder kann man dadurch noch keine direkten Rückschlüsse auf den Einfluss des Geschlechts auf die Entscheidung sich weiterzubilden ziehen?


Nehmen wir an, Du hast "Wohneigentum" als Prädiktor im Modell und vermutest, dass Wohneigentum beim Männern und Frauen einen ähnlichen Effekt hat. Dann kann Dein Modell den Einfluss von Wohneigentum im einen Fall aus allen vorhandenen Datensätzen lernen und im anderen Fall nur aus den Männer- bzw nur aus den Frauendatensätzen. Wenn Du vielleicht nur wenige Frauen mit Weiterbildungsentscheidung hast, wäre es blöd, nur aus den wenigen Frauen den Effekt von Wohneigentum zu schätzen, obwohl der doch geschlechtsunspezifisch sein soll. Das ist für mich der wichtigere Punkt, alles in ein Modell zu packen. Daneben hast Du Recht: In einem gemeinsamen Modell ist die Beurteilung der Signifikanz von Geschlechtsunterschieden sehr viel einfacher.

Ich habe selber versucht diese Regression schriftlich durch zu rechnen


Vielleicht ist das der Grund, warum Du eine "einfache" Regression rechnen willst? Rechne die Regressionen lieber mit einem Computer und investier Deine geistige Kraft in das Verstehen und verständnisvolle interpretieren von Interaktionstermen und logistischen Regressionen!

LG,
Bernhard

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Sa 17. Okt 2020, 11:04
von Toevre
Guten Morgen Bernhard,

nochmals danke für deine Antworten.
Nun bin ich bereit bis zur nächsten Etappe etwas selbstständiger zu arbeiten.
Wie du siehst, fehlen mir einfach noch die Praxis und Routine um das oberflächliche Basiswissen wirklich durchdringen zu können.
Der Grund dafür, dass ich vieles gerne eigenständig und handschriftlich rechne ist das mangelnde verständnis bei neuen Dingen.
Ich habe tatsächlich vorher versucht die Regression mit einem Computerprogramm durchzurechnen.
Leider habe ich mir mit der interpretation der Werte schwer getan und durch gezielte fiktive Datensätze (z.B. extrem niedriges Einkommen bei Menschen, die sich für eine Weiterbildung entscheiden und anderum bei der Entscheidung dagegen).
Dadurch entsteht ein Vertrauensproblem, weil mir die Operationen, die das Programm im Hintergrund durchführt, unbekannt bleiben.
Schnell kommen Gedanken auf wie: "Dummy Variable richtig codiert?", "Ergebnis nur Schrott oder realistisch?".

Falls es dich weiterhin interessiert oder du offen dafür bist, weitere vereinzelte Fragen sporadisch zu beanworten, halte ich dich gerne auf dem laufenden.
Ansonsten bedanke ich mich und wünsche ich dir noch ein schönes Wochenende.

LG

Toevre

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Sa 17. Okt 2020, 11:25
von PonderStibbons
Multivariat wird konventionell für Verfahren mit mehreren abhängigen Variablen verwendet.
Mehrere Prädiktoren bei nur einer abhängigen Variable wird gängig als multiple Regression
bezeichnet.

Mit freundlichen Grüßen

PonderStibbons

Re: Multivariate Regressionsanalyse - unabhängige Variable D

BeitragVerfasst: Sa 17. Okt 2020, 14:03
von Toevre
Gut zu wissen!
Mit den Begrifflichkeiten habe ich auch noch etwas zu kämpfen, habe mir dafür jetzt aber Standardliteratur zugelegt.

LG