Seite 1 von 1

Schrittweise vs. multiple Regression

BeitragVerfasst: Di 5. Okt 2021, 12:25
von NanaTz
Hallo Leute,

ich habe für meiner Masterarbeit eine multiple Regerssion gerechnet und im Anschluss eine schrittweise Regression. Dabei wurde bei der schrittweisen Regression eine Variable signifikant, die in der multiplen Regression nicht signifikant. Woran kann das liegen? Was ist richtig, dh, welchen Effekt darf ich annehmen?
Danke schonmal :)

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Di 5. Okt 2021, 12:34
von PonderStibbons
ich habe für meiner Masterarbeit eine multiple Regerssion gerechnet und im Anschluss eine schrittweise Regression.

Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Dabei wurde bei der schrittweisen Regression eine Variable signifikant, die in der multiplen Regression nicht signifikant. Woran kann das liegen?

Wo wurde wann was statistisch signifikant?

Mit freundlichen Grüßen

PonderStibbons

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Di 5. Okt 2021, 12:51
von bele
Hallo Nana,

verstehst Du unter schrittweiser Regression das automatisierte schrittweise Ein- und Ausschließen von Variablen ins Modell? Dann könnte es vielleicht sein, dass die eine Variable signifikant wurde weil sie mit einer falsch kleinen Zahl von Freiheitsgraden verwendet wurde. https://en.wikipedia.org/wiki/Stepwise_ ... #Criticism schreibt dazu

When estimating the degrees of freedom, the number of the candidate independent variables from the best fit selected may be smaller than the total number of final model variables, causing the fit to appear better than it is when adjusting the r2 value for the number of degrees of freedom. It is important to consider how many degrees of freedom have been used in the entire model, not just count the number of independent variables in the resulting fit.[19]

und
Critics regard the procedure as a paradigmatic example of data dredging, intense computation often being an inadequate substitute for subject area expertise. [...]. Especially the practice of fitting the final selected model as if no model selection had taken place and reporting of estimates and confidence intervals as if least-squares theory were valid for them, has been described as a scandal.[7] [...]led to calls to totally avoid stepwise model selection


Belege findest Du in dem Artikel reichlich. Quelle Nr 5 findest Du hier z. B. öffentlich zugänglich: Flom, P. L. and Cassell, D. L. (2007) "Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use," NESUG 2007

Dementsprechend solltest Du bei der Interpretation vorsichtig sein, wenn es Dir vorgegeben wurde und über Alternativen nachdenken, wenn Du die Freiheit dazu hast.

LG,
Bernhard

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Di 5. Okt 2021, 17:10
von strukturmarionette
Hi,

- wie ist es möglich, dass du bei zwei unterschiedlichen Modellen die gleichen Ergebnisse erwartest?

Gruß
S.

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Fr 8. Okt 2021, 12:37
von NanaTz
PonderStibbons hat geschrieben:Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Wo wurde wann was statistisch signifikant?


ja, mit genau den selben Daten. Ich hab das mit R gerechnet, da werden halt nach und nach verschiedene Modell verglichen, bis das ausgewählt wird, dass den besten Modellfit hat. Und da wurde halt als "End-Modell" das ausgewählt, wo 5 unabhängige Variablen enthalten sind, die alle signifikant sind. Die sind von den Gewichten auch alle ähnlich zur multiplen Regression mit allen Variablen. Nur gibt es halt diese ein Variable, die in der kompletten multiplen Regression nicht signifikant wird, die aber in der schrittweisen Regressionen schon signifikant ist.

Sehr konkret geht es um eine Häufigkeitsvariable. Ich habe erhoben, wie oft Leute retrospektiv vor Corona und während Corona online einkaufen (in Selbstaussage). Die beiden Werte unterschieden sich signifikant, deshalb habe ich sie getrennt voneinander als unabhängige Variablen in die Regression aufgenommen. In der kompletten Regression haben die beiden Variablen keinen signifikanten Einfluss auf die abhängige Variable. Und bei der schrittweisen Reg ist dann am Ende die Häufigkeit vor Corona nicht mehr als Variable enthalten und die Häufigkeit während Corona wird signifikant.

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Fr 8. Okt 2021, 12:42
von NanaTz
bele hat geschrieben:Hallo Nana,

verstehst Du unter schrittweiser Regression das automatisierte schrittweise Ein- und Ausschließen von Variablen ins Modell? Dann könnte es vielleicht sein, dass die eine Variable signifikant wurde weil sie mit einer falsch kleinen Zahl von Freiheitsgraden verwendet wurde.


Hallo,
danke schonmal :)
Tatsächlich vergleicht die schrittweise Regression Modelle mit verschiedenen Variablen und entscheidet dann welches Modell am besten auf die Daten passt. Also es nimmt am Ende nur Variablen in die Regression auf, die einen signifikanten Anteil an der abhängigen Variable erklären. Deshalb habe ich bei der kompletten multiplen Regression weniger Freiheitsgrade (nämlich 311), als bei der schrittweisen Regression (da sind es 317). Könnte es also daran liegen, dass die eine Variable mehr signifikant wird?

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Fr 8. Okt 2021, 13:54
von bele
Hallo Nana,

wir machen mal folgendes Beispiel. Du kannst das gerne auf Deinem Rechner in einer R-Session nachvollziehen (wurde mit R Version 4.1 gerechnet, mit sehr viel älteren R Versionen könntest Du andere Zufallszahlen bekommen und dann auch andere Ergebnisse haben).

Code: Alles auswählen
set.seed(55)
n <- 25
test <- data.frame(erg = rnorm(n),
                   beliebig1 = rnorm(n),
                   beliebig2 = rnorm(n),
                   beliebig3 = rnorm(n),
                   beliebig4 = rnorm(n),
                   beliebig5 = rnorm(n),
                   beliebig6 = rnorm(n),
                   beliebig7 = rnorm(n),
                   beliebig8 = rnorm(n),
                   beliebig9 = rnorm(n),
                   beliebig10 = rnorm(n))
mod1 <- lm(erg ~ ., data = test)
summary(mod1)


Wie Du hoffentlich erkennen kannst wird eine Zufallsvariable (erg) durch zehn unabhängige Zufallsvariablen (beliebig*) vorhergesagt. Die lineare Regression erkennt das richtig und es gibt keinen signifikanten Prädiktor. Den kleinsten p-Wert hat beliebig7 mit p = 0.135

So, nun benutzen wir die Funktion step um schrittweise unser Modell zu "verbessern":

Code: Alles auswählen
mod2 <- step(lm(erg ~., data= test))
summary(mod2)


Und jetzt bleiben nur noch zwei Prädiktoren übrig, nämlich beliebig7 mit p = 0,04 und beliebig9 mit p = 0,11. Beide Prädiktoren haben also jetzt einen deutlich kleineren p-Wert und bei einem ist die magische Signifikanzschwelle von 0,05 unterschritten worden. Das Gesamtmodell hat auch ein besseres adjustiertes R² bekommen und alle sind glücklich. Das einzige Problem ist, dass wir beide genau wissen, dass es da keinerlei Zusammenhang gibt und es sich also definitiv nicht um das Erkennen einen vorher verborgenen Struktur handelt, sondern ganz banal um einen Beta-Fehler!

Es macht durchaus Sinn, mit verschiedenen seeds, verschiedenen n und verschieden vielen Pseudoprädiktoren mal herumzuspielen um ein Gefühl dafür zu bekommen, welches Glücksspiel stepwise regression ist. Du wirst nicht jedes Mal im Ergebnis einen signifikanten Prädiktor finden aber die verbleibenden haben danach eigentlich immer einen kleineren p-Wert als davor.
Es spricht auch nichts dagegen, mein kleines Beispiel mal an Deine Verhältnisse (Zahl der Prädiktoren und Zahl der Variablen und Deine Funktion für schrittweise Regression) anzupassen und damit ein wenig herumzuspielen.

LG,
Bernhard

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Fr 8. Okt 2021, 15:00
von PonderStibbons
NanaTz hat geschrieben:
PonderStibbons hat geschrieben:Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Wo wurde wann was statistisch signifikant?


ja, mit genau den selben Daten. Ich hab das mit R gerechnet, da werden halt nach und nach verschiedene Modell verglichen, bis das ausgewählt wird, dass den besten Modellfit hat.

Das sollest Du unbedingt sein lassen, weil es (siehe auch beles Beispiele) den Zufall
ausnutzt, unkorrekte Koeffizienten erzeugt und nicht generalisierbare Ergebnisse
erbringt. https://www.stata.com/support/faqs/stat ... -problems/

Konkret ist es im vorliegenden Fall so, dass vermutlich in der normalen Regression
Variablen mit drin sind, die mit der betreffenden Variable "überlappen" und ihr
einen Teil Varianzaufklärung wegnehmen. Werden diese konkurrierenden Variablen
herausgenommen, dann wird diese Varianzaufklärung von der betreffenden Variable
übernommen. Allerdings weiß ich nicht, wie groß der Unterschied ist, signifikant
und nicht-signifikant sind keine besonders brauchbaren Angaben (kann heißen
p=0,0499 versus 0,050 oder auch p=0,00001 versus p=0,99; und wichtig wären die
Regressionskoeffizienten und deren Standardfehler).

Mit freundlichen Grüßen

PonderStibbons

Re: Schrittweise vs. multiple Regression

BeitragVerfasst: Fr 8. Okt 2021, 15:33
von NanaTz
AHHHHH riesiges Dankeschön, jetzt habe ich es verstanden! :)

Liebe Grüße,
Nana