STATISTIK-FORUM.de

Guten Tag liebes Forum,

ich schreibe derzeit an meiner Bachelorarbeit und bin dabei, mit meinem Modell Ergebnisse zu generieren und diese im Anschluss zu interpretieren. Ich habe dafür mehrere Perioden im Zeitraum von 1994 - 2014, die ich im Querschnittsverfahren untersuche. Meine Fälle sind alles Länder.

In meinem Modell habe ich n = 23 - 28 (je nach Periode und Variable), eine abhängige Variable (Wirtschaftswachstum), drei unabhängige Variablen (BIP pro Kopf zu Periodenbeginn, durchschnittliche Bildungsausgaben im Anteil am BIP in Prozent und Freiheit / Gleichheit / Kontrolle als politische Variablen, die getrennt voneinander untersucht werden) und zwei Kontrollvariablen (Inflation und Staatskonsum).

Die Kontrollvariablen dienen dazu, im Rahmen einer Extreme Bound Analysis die Robustheit der Ergebnisse zu prüfen und es handelt sich hierbei um Indikatoren, wo empirisch gesichert ist, dass sie einen bestimmten Einfluss auf die AV ausüben.

Nun zur Frage:
Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, und die Variablen haben einen höheren Standartfehler und eine niedrigere Signifikanz.
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Eine Kollinearitätsdiagnose zeigt auf, dass Kollinearität existiert: UV BIP pro Kopf hat einen VIF-Wert von 3,689 (Toleranz: ,271), die UV Bildungsausgaben einen VIF-Wert von 2,569 (Toleranz: ,0389) und die Inflationsrate einen VIF Wert von 2,970 (Toleranz: ,337). Ohne die Kontrollvariablen verschwindet die Kollinearität. Könnte es also daran liegen? Anders kann ich es mir nicht erklären.

Zweite, kleinere Frage:
Ist es ausreichend, die Ergebnisse auf Signifikanz durch r², veränderte Vorzeichen und r²-Werte, standart error und coefficient, periodenspezifische Veränderung und auf die insgesamte Aussagekraft zu überprüfen?
Oder sollten noch Einflussuntersuchungen wie Cook's Distance rein? Im Interpretieren von Regressionsanalysen bin ich noch neu und nicht ganz sicher, was alles in eine ordentliche Analyse reingehört.

Ich wäre jedem dankbar, der mir weiterhelfen könnte! Vielen Dank im Voraus!

Anscheinend sind es in etwa immer dieselben Länder. Wie hast Du berücksichtigt, dass es sich damit um eine Messwiederholungs-Analyse handelt? Es liest sich im Moment so, als würdest Du dasselbe Land, in mehreren Jahren betrachtet, wie unterschiedliche Fälle behandeln.

Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Missing values, damit veränderte Stichprobe.

Mit freundlichen Grüßen

PonderStibbons

PonderStibbons hat geschrieben:Anscheinend sind es in etwa immer dieselben Länder. Wie hast Du berücksichtigt, dass es sich damit um eine Messwiederholungs-Analyse handelt? Es liest sich im Moment so, als würdest Du dasselbe Land, in mehreren Jahren betrachtet, wie unterschiedliche Fälle behandeln.
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Missing values, damit veränderte Stichprobe.

Mit freundlichen Grüßen

PonderStibbons

Danke für die Rückmeldung.

Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

Für die Periode 1994 - 2014 taucht also Deutschland nicht 25 Mal pro Variable auf, sondern nur ein Mal. Das Problem, dass länderspezifische Effekte als Störterme interpretiert werden, meine ich hierdurch verhindert zu haben.

Bzgl. der missing values: Bei der ANOVA-Tabelle zeigt er mir einen niedrigeren Gesamtwert der Freiheitsgrade bei der Addierung der beiden Kontrollvariablen an, also von 23 auf 22. Dementsprechend auch weniger nicht-standardisierte Residuen. Daher das Absinken des r-squares?

Anza94 hat geschrieben:Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, [...]
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Du darfst nicht das $R^2$ und das korrigierte/adjustierte $R^2$ verwechseln. Letzteres wird ja für zusätzliche Prädiktoren bestraft und kann deshalb auch ohne Missings durch zusätzliche Prädiktoren kleiner werden, wenn diese wenig beitragen

LG,
Bernhard

Code: Alles auswählen: > set.seed(123) > a <- rnorm(20) > test <- data.frame(A=a, B=jitter(a,amount = 2), C=rnorm(20)) > summary(lm(A~B, data=test))$adj.r.squared [1] 0.2244023 > summary(lm(A~B+C, data=test))$adj.r.squared [1] 0.1909324

bele hat geschrieben:
Anza94 hat geschrieben:Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, [...]
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Du darfst nicht das $R^2$ und das korrigierte/adjustierte $R^2$ verwechseln. Letzteres wird ja für zusätzliche Prädiktoren bestraft und kann deshalb auch ohne Missings durch zusätzliche Prädiktoren kleiner werden, wenn diese wenig beitragen

LG,
Bernhard

Code: Alles auswählen
> set.seed(123) > a <- rnorm(20) > test <- data.frame(A=a, B=jitter(a,amount = 2), C=rnorm(20)) > summary(lm(A~B, data=test))$adj.r.squared [1] 0.2244023 > summary(lm(A~B+C, data=test))$adj.r.squared [1] 0.1909324

Danke, habe eben noch schnell recherchiert und die eigentliche Funktion des adj. r-squares verstanden. Nur das Absinken des r-squares kommt mir merkwürdig vor - evtl. wegen weniger Freiheitsgraden bei Hinzufügen der beiden Kontrollvariablen?

bele hat geschrieben:Du darfst nicht das $R^2$ und das korrigierte/adjustierte $R^2$ verwechseln.

Mist, schon wieder vergessen, dass man bei den meisten OPs besser nochmal jeden Punkt und jeden Begriff nachfragt...

Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

5 Prädiktoren bei 28 Fällen ist ein bißchen knapp. Da wäre ein Mehrebenenmodell mit den nicht-aggregierten Daten besser, das nutzt alle vorhandenen Informationen.

PonderStibbons hat geschrieben:
Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

5 Prädiktoren bei 28 Fällen ist ein bißchen knapp. Da wäre ein Mehrebenenmodell mit den nicht-aggregierten Daten besser, das nutzt alle vorhandenen Informationen.

Ansich hast du Recht. Jedoch handelt es sich bei meinem Sample um die OECD-Länder, so dass die Fälle eh nicht über 35 gehen könnten. Die Prädiktoren beschränken sich zudem auf 3, die Kontrollvariablen kommen in seperaten Analysen zum Einsatz und dienen der Robustheitsanalyse der Ergebnisse.

Ich hatte noch eine wichtige Frage:
Bei der Variable Bildung habe ich ganze 11 (!) Missing Values - es handelt sich aber bei allen Werten nicht durch randomisierte Prozesse erhobene Daten. Kommt hier listenweiser, oder paarweiser Fallausschluss zum Einsatz? Stundenlange Recherche konnten mir die Antwort nicht bringen .. sind die MCAR Bedingungen nicht automatisch anwendbar bei nicht-randomisierten Daten? Denn ich bekomme teilweise sehr unterschiedlice Ergebnisse je nach Listwise/Pairwise ... obwohl die Fallanzahl bei 23 gleich bleibt.

Kannst du mal genau erklären was du tust? Du redest von OECD-Sample und Querschnitt, also gehen davon aus, dass du eine Panelanalyse durchführen willst?

Habe die Sache nun so angegangen, dass ich mich einfach für den voreingestellten listenweisen Fallausschluss entschieden habe.

@DHA3000: Nein, keine Panelanalyse, sondern Durchschnittswerte des Zeitraums, und deshalb wiederholte Querschnittsanalyse.

STATISTIK-FORUM.de

Mehr Variablen im Modell, aber niedrigeres R-Square?

Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?