Schrittweise vs. multiple Regression

Alle Verfahren der Regressionanalyse.

Schrittweise vs. multiple Regression

Beitragvon NanaTz » Di 5. Okt 2021, 12:25

Hallo Leute,

ich habe für meiner Masterarbeit eine multiple Regerssion gerechnet und im Anschluss eine schrittweise Regression. Dabei wurde bei der schrittweisen Regression eine Variable signifikant, die in der multiplen Regression nicht signifikant. Woran kann das liegen? Was ist richtig, dh, welchen Effekt darf ich annehmen?
Danke schonmal :)
NanaTz
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 5. Okt 2021, 10:56
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Schrittweise vs. multiple Regression

Beitragvon PonderStibbons » Di 5. Okt 2021, 12:34

ich habe für meiner Masterarbeit eine multiple Regerssion gerechnet und im Anschluss eine schrittweise Regression.

Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Dabei wurde bei der schrittweisen Regression eine Variable signifikant, die in der multiplen Regression nicht signifikant. Woran kann das liegen?

Wo wurde wann was statistisch signifikant?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

folgende User möchten sich bei PonderStibbons bedanken:
NanaTz

Re: Schrittweise vs. multiple Regression

Beitragvon bele » Di 5. Okt 2021, 12:51

Hallo Nana,

verstehst Du unter schrittweiser Regression das automatisierte schrittweise Ein- und Ausschließen von Variablen ins Modell? Dann könnte es vielleicht sein, dass die eine Variable signifikant wurde weil sie mit einer falsch kleinen Zahl von Freiheitsgraden verwendet wurde. https://en.wikipedia.org/wiki/Stepwise_ ... #Criticism schreibt dazu

When estimating the degrees of freedom, the number of the candidate independent variables from the best fit selected may be smaller than the total number of final model variables, causing the fit to appear better than it is when adjusting the r2 value for the number of degrees of freedom. It is important to consider how many degrees of freedom have been used in the entire model, not just count the number of independent variables in the resulting fit.[19]

und
Critics regard the procedure as a paradigmatic example of data dredging, intense computation often being an inadequate substitute for subject area expertise. [...]. Especially the practice of fitting the final selected model as if no model selection had taken place and reporting of estimates and confidence intervals as if least-squares theory were valid for them, has been described as a scandal.[7] [...]led to calls to totally avoid stepwise model selection


Belege findest Du in dem Artikel reichlich. Quelle Nr 5 findest Du hier z. B. öffentlich zugänglich: Flom, P. L. and Cassell, D. L. (2007) "Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use," NESUG 2007

Dementsprechend solltest Du bei der Interpretation vorsichtig sein, wenn es Dir vorgegeben wurde und über Alternativen nachdenken, wenn Du die Freiheit dazu hast.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5748
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1343 mal in 1330 Posts

folgende User möchten sich bei bele bedanken:
NanaTz

Re: Schrittweise vs. multiple Regression

Beitragvon strukturmarionette » Di 5. Okt 2021, 17:10

Hi,

- wie ist es möglich, dass du bei zwei unterschiedlichen Modellen die gleichen Ergebnisse erwartest?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4312
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: Schrittweise vs. multiple Regression

Beitragvon NanaTz » Fr 8. Okt 2021, 12:37

PonderStibbons hat geschrieben:Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Wo wurde wann was statistisch signifikant?


ja, mit genau den selben Daten. Ich hab das mit R gerechnet, da werden halt nach und nach verschiedene Modell verglichen, bis das ausgewählt wird, dass den besten Modellfit hat. Und da wurde halt als "End-Modell" das ausgewählt, wo 5 unabhängige Variablen enthalten sind, die alle signifikant sind. Die sind von den Gewichten auch alle ähnlich zur multiplen Regression mit allen Variablen. Nur gibt es halt diese ein Variable, die in der kompletten multiplen Regression nicht signifikant wird, die aber in der schrittweisen Regressionen schon signifikant ist.

Sehr konkret geht es um eine Häufigkeitsvariable. Ich habe erhoben, wie oft Leute retrospektiv vor Corona und während Corona online einkaufen (in Selbstaussage). Die beiden Werte unterschieden sich signifikant, deshalb habe ich sie getrennt voneinander als unabhängige Variablen in die Regression aufgenommen. In der kompletten Regression haben die beiden Variablen keinen signifikanten Einfluss auf die abhängige Variable. Und bei der schrittweisen Reg ist dann am Ende die Häufigkeit vor Corona nicht mehr als Variable enthalten und die Häufigkeit während Corona wird signifikant.
NanaTz
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 5. Okt 2021, 10:56
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Schrittweise vs. multiple Regression

Beitragvon NanaTz » Fr 8. Okt 2021, 12:42

bele hat geschrieben:Hallo Nana,

verstehst Du unter schrittweiser Regression das automatisierte schrittweise Ein- und Ausschließen von Variablen ins Modell? Dann könnte es vielleicht sein, dass die eine Variable signifikant wurde weil sie mit einer falsch kleinen Zahl von Freiheitsgraden verwendet wurde.


Hallo,
danke schonmal :)
Tatsächlich vergleicht die schrittweise Regression Modelle mit verschiedenen Variablen und entscheidet dann welches Modell am besten auf die Daten passt. Also es nimmt am Ende nur Variablen in die Regression auf, die einen signifikanten Anteil an der abhängigen Variable erklären. Deshalb habe ich bei der kompletten multiplen Regression weniger Freiheitsgrade (nämlich 311), als bei der schrittweisen Regression (da sind es 317). Könnte es also daran liegen, dass die eine Variable mehr signifikant wird?
NanaTz
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 5. Okt 2021, 10:56
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Schrittweise vs. multiple Regression

Beitragvon bele » Fr 8. Okt 2021, 13:54

Hallo Nana,

wir machen mal folgendes Beispiel. Du kannst das gerne auf Deinem Rechner in einer R-Session nachvollziehen (wurde mit R Version 4.1 gerechnet, mit sehr viel älteren R Versionen könntest Du andere Zufallszahlen bekommen und dann auch andere Ergebnisse haben).

Code: Alles auswählen
set.seed(55)
n <- 25
test <- data.frame(erg = rnorm(n),
                   beliebig1 = rnorm(n),
                   beliebig2 = rnorm(n),
                   beliebig3 = rnorm(n),
                   beliebig4 = rnorm(n),
                   beliebig5 = rnorm(n),
                   beliebig6 = rnorm(n),
                   beliebig7 = rnorm(n),
                   beliebig8 = rnorm(n),
                   beliebig9 = rnorm(n),
                   beliebig10 = rnorm(n))
mod1 <- lm(erg ~ ., data = test)
summary(mod1)


Wie Du hoffentlich erkennen kannst wird eine Zufallsvariable (erg) durch zehn unabhängige Zufallsvariablen (beliebig*) vorhergesagt. Die lineare Regression erkennt das richtig und es gibt keinen signifikanten Prädiktor. Den kleinsten p-Wert hat beliebig7 mit p = 0.135

So, nun benutzen wir die Funktion step um schrittweise unser Modell zu "verbessern":

Code: Alles auswählen
mod2 <- step(lm(erg ~., data= test))
summary(mod2)


Und jetzt bleiben nur noch zwei Prädiktoren übrig, nämlich beliebig7 mit p = 0,04 und beliebig9 mit p = 0,11. Beide Prädiktoren haben also jetzt einen deutlich kleineren p-Wert und bei einem ist die magische Signifikanzschwelle von 0,05 unterschritten worden. Das Gesamtmodell hat auch ein besseres adjustiertes R² bekommen und alle sind glücklich. Das einzige Problem ist, dass wir beide genau wissen, dass es da keinerlei Zusammenhang gibt und es sich also definitiv nicht um das Erkennen einen vorher verborgenen Struktur handelt, sondern ganz banal um einen Beta-Fehler!

Es macht durchaus Sinn, mit verschiedenen seeds, verschiedenen n und verschieden vielen Pseudoprädiktoren mal herumzuspielen um ein Gefühl dafür zu bekommen, welches Glücksspiel stepwise regression ist. Du wirst nicht jedes Mal im Ergebnis einen signifikanten Prädiktor finden aber die verbleibenden haben danach eigentlich immer einen kleineren p-Wert als davor.
Es spricht auch nichts dagegen, mein kleines Beispiel mal an Deine Verhältnisse (Zahl der Prädiktoren und Zahl der Variablen und Deine Funktion für schrittweise Regression) anzupassen und damit ein wenig herumzuspielen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5748
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1343 mal in 1330 Posts

folgende User möchten sich bei bele bedanken:
NanaTz

Re: Schrittweise vs. multiple Regression

Beitragvon PonderStibbons » Fr 8. Okt 2021, 15:00

NanaTz hat geschrieben:
PonderStibbons hat geschrieben:Mit genau denselben Daten? Warum? Und in welcher Weise wurde die schrittweise multiple Regression durchgeführt?

Wo wurde wann was statistisch signifikant?


ja, mit genau den selben Daten. Ich hab das mit R gerechnet, da werden halt nach und nach verschiedene Modell verglichen, bis das ausgewählt wird, dass den besten Modellfit hat.

Das sollest Du unbedingt sein lassen, weil es (siehe auch beles Beispiele) den Zufall
ausnutzt, unkorrekte Koeffizienten erzeugt und nicht generalisierbare Ergebnisse
erbringt. https://www.stata.com/support/faqs/stat ... -problems/

Konkret ist es im vorliegenden Fall so, dass vermutlich in der normalen Regression
Variablen mit drin sind, die mit der betreffenden Variable "überlappen" und ihr
einen Teil Varianzaufklärung wegnehmen. Werden diese konkurrierenden Variablen
herausgenommen, dann wird diese Varianzaufklärung von der betreffenden Variable
übernommen. Allerdings weiß ich nicht, wie groß der Unterschied ist, signifikant
und nicht-signifikant sind keine besonders brauchbaren Angaben (kann heißen
p=0,0499 versus 0,050 oder auch p=0,00001 versus p=0,99; und wichtig wären die
Regressionskoeffizienten und deren Standardfehler).

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

folgende User möchten sich bei PonderStibbons bedanken:
NanaTz

Re: Schrittweise vs. multiple Regression

Beitragvon NanaTz » Fr 8. Okt 2021, 15:33

AHHHHH riesiges Dankeschön, jetzt habe ich es verstanden! :)

Liebe Grüße,
Nana
NanaTz
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 5. Okt 2021, 10:56
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron