Regression: verschiedene Fragen

Alle Verfahren der Regressionanalyse.

Regression: verschiedene Fragen

Beitragvon StefanTrautmann » Di 15. Jan 2013, 10:47

Hallo zusammen,

für die Erklärung einer abhängigen Variable, die metrisch skaliert ist, liegen neben 4 unabhängigen und ebenfalls metrisch skalierten Variablen zusätzlich etwa 40 kategoriale Variablen (verschiedene Länder wie Deutschland, Schweden, ...) vor. Könnt ihr bitte kurz sagen, ob dieses Vorgehen sinnig ist:

1. Ich habe von den 40 kategorialen Variablen etwa 15 dummy-codiert. Das Kriterium hierfür war die Häufigkeit, mit welcher die Variablen im Datensatz vorkommen. Hier wäre zunächst zu klären, ob es korrekt ist, Dummy-Variablen nach dem Kriterium Häufigkeit zu erstellen oder ob dies bereits eine Verfälschung oder Verzerrung darstellt.
2. Von den 40 kategorialen Variablen habe ich wie erwähnt 15 Variablen als Dummy-Variablen in die Regressionsanalyse einfließen lassen. Die restlichen 25 Variablen dienen als Referenzkategorie und stellen quasi die "sonstigen Länder" dar. Ist dass Zusammenfassen von 25 Ländern in eine Kategorie aus statistischer Sicht in meinem Fall in Ordnung?
3. Zu den 15 Dummy-Variablen kommen noch die 4 bereits erwähnten metrisch skalierten Variablen hinzu. Nun bin ich nicht ganz sicher, wann ich die Entscheidung fällen soll, keine weiteren Variablen mehr aufzunehmen und wann ich die Regression mit 19 (15+4) Variablen bilden soll. Woran sollte ich mich hierbei orientieren?
4. Es bestünde die Möglichkeit neben den 15 Länder-Dummy-Variablen noch weitere kategoriale Variablen als Dummy-Variablen einzubeziehen. R-Quadrat würde sich hierbei verbessern. Worauf muss eine derartige Entscheidung fußen?

Liebe Grüße
Stefan
StefanTrautmann
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Do 10. Jan 2013, 13:31
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Regression: verschiedene Fragen

Beitragvon daniel » Di 15. Jan 2013, 12:41

Du wirfst hier die Begriffe Variablen und Merkmalsausprägungen durcheinander. Du hast eine kategoriale Variable (Land) mit 40 Ausprägungen (Deutschland, Schweden, etc.).

Zu Deinen Fragen.

Hier wäre zunächst zu klären, ob es korrekt ist, Dummy-Variablen nach dem Kriterium Häufigkeit zu erstellen oder ob dies bereits eine Verfälschung oder Verzerrung darstellt.

Um die Frage konkreter beantworten zu können wäre es widerum zunächst nötig zu klären, im Bezug auf was Du eine Verzerrung oder Verfälschung erwartest bzw. was genau damit gemeint ist. Statistisch gesehen ist es durchaus in Ordnung, Kategorien, die eine geringe Zellbesetzung auffassen zusammenzufassen (vgl. Frage 2). In erster Linie sollten es aber theoretische Begründungen sein, nach denen entschieden wird, welche Länder wie zusammengefasst werden.

Zu den 15 Dummy-Variablen kommen noch die 4 bereits erwähnten metrisch skalierten Variablen hinzu. Nun bin ich nicht ganz sicher, wann ich die Entscheidung fällen soll, keine weiteren Variablen mehr aufzunehmen und wann ich die Regression mit 19 (15+4) Variablen bilden soll. Woran sollte ich mich hierbei orientieren?

Zunächst an Deiner Theorie und am Erkenntnisinteresse. Danach an den Fallzahlen.

Es bestünde die Möglichkeit neben den 15 Länder-Dummy-Variablen noch weitere kategoriale Variablen als Dummy-Variablen einzubeziehen. R-Quadrat würde sich hierbei verbessern. Worauf muss eine derartige Entscheidung fußen?

Zunächst auf Deiner Theorie und dem Erkenntnisinteresse. Danach auf den Fallzahlen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Regression: verschiedene Fragen

Beitragvon StefanTrautmann » Di 15. Jan 2013, 16:34

Hallo Daniel,

danke für Deine Antwort.

Zunächst auf Deiner Theorie und dem Erkenntnisinteresse. Danach auf den Fallzahlen.


1. Laut Theorie müsste eine zusätzliche Variable ebenfalls als Prädikator dienen. An den Ergebnissen der Regression wird allerdings deutlich, dass diese mit dem "falschen" Vorzeichen einfließt. Was sollte hier getan werden?
2. Eine weitere Variable, die auf Basis theoretischer Vorüberlegungen einfließt, erweist sich hinsichtlich ihrer Varianzerklärung nur als minimal förderlich. Obwohl das Gesamtmodell signifikant ist, ist der entsprechende Koeffizient nicht signifikant. Was sollte hierbei Deiner Meinung nach getan werden?

Eine letzte Frage noch zur Dummy-Thematik. Gehe ich recht in der Annahme, dass auch zwei kategoriale Variablen gleichzeitig in einem Regressionsmodell dummy-codiert einfließen können (z.B. Länder und Politikstil)?

Herzlichen Dank für Deine Geduld und liebe Grüße
Stefan
StefanTrautmann
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Do 10. Jan 2013, 13:31
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Regression: verschiedene Fragen

Beitragvon daniel » Di 15. Jan 2013, 23:39

1. Laut Theorie müsste eine zusätzliche Variable ebenfalls als Prädikator dienen. An den Ergebnissen der Regression wird allerdings deutlich, dass diese mit dem "falschen" Vorzeichen einfließt. Was sollte hier getan werden?

Nach einer theoretischen Erklärung suchen. Auf keinen Fall solltest Du das einfach "vertuschen".

2. Eine weitere Variable, die auf Basis theoretischer Vorüberlegungen einfließt, erweist sich hinsichtlich ihrer Varianzerklärung nur als minimal förderlich. Obwohl das Gesamtmodell signifikant ist, ist der entsprechende Koeffizient nicht signifikant. Was sollte hierbei Deiner Meinung nach getan werden?

Wenn es in der Theorie ist gehört es ins Modell. Ist eine hohe Varianzaufklärung Dein Forschungsinteresse?

Eine letzte Frage noch zur Dummy-Thematik. Gehe ich recht in der Annahme, dass auch zwei kategoriale Variablen gleichzeitig in einem Regressionsmodell dummy-codiert einfließen können (z.B. Länder und Politikstil)?

Ja klar.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Regression: verschiedene Fragen

Beitragvon StefanTrautmann » Do 17. Jan 2013, 12:09

Nach einer theoretischen Erklärung suchen. Auf keinen Fall solltest Du das einfach "vertuschen".


Ich habe nicht vor dies zu vertuschen. Ich frage mich allerdings wie es zu interpretieren ist, wenn eine unabhängige Variable beim Bilden einer einfachen linearen Regression mit positivem Vorzeichen auf eine abhängige Variable einwirkt, während die selbe Variable bei einer multiplen linearen Regression (bei der noch weitere Prädikatoren aufgenommen werden) "plötzlich" mit negativem Vorzeichen auf die selbe abhängige Variable einwirkt. Ist das nicht etwas ungewöhnlich? Ich habe zumindest Schwierigkeiten dies korrekt zu interpretieren und hoffe du kannst mir hier den nötigen Anstoß geben.

Danke und Grüße
Stefan
StefanTrautmann
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Do 10. Jan 2013, 13:31
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Regression: verschiedene Fragen

Beitragvon daniel » Do 17. Jan 2013, 13:57

In der multiplen Regression werden alle weiteren Variablen statisitsch konstant gehalten. Eine Veränderung der Koeffizienten ist daher nicht ungewöhnlich, sondern sogar zu erwarten. Das ist der Grund weshalb wir für weitere Variablen kontrollieren und keine Reihe bivariater Korrelationen berechnen.

Da Du nichts über den Inhalt Deiner Forschung sagst, kann ich nicht konkret darauf eingehen. Dennoch ein Beispiel. Versetzen wir uns in die Zeit der Diplomstudiengänge. Nimm an, wir regressieren erzieltes Erwerbseinkommen auf Studiendauer. Wir finden, dass eine längere Studiendauer mit höherem Erwerbseinkommen assoziert ist. Im nächsten Schritt kontrollieren wir für das Studienfach. Da Absolventen von Studienfächern, die durchschnittlich eine kürze Dauer haben (z.B. Soziologie) im Schnitt ein geringeres Einkommen erzielen (im Vergleich mit bsp Jura), eine (unnötig) längere Studiendauer aber fachunabhängig zu geringerem Erwerbseinkommen führt, finden wir nun eine negative Assoziation von Studiendauer und Erwerbseinkommen.

Dieses Phänomen ist als simpson paradox bekannt und könnte in Deinem Fall der Läderunterschiede zutreffen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste