Regression mit Kontrollvariablen

Alle Verfahren der Regressionanalyse.

Regression mit Kontrollvariablen

Beitragvon Anna1801 » So 17. Dez 2023, 14:10

Hallo,

Ich rechne eine lineare Regression mit einer UV und einer AV. Nun möchte ich zwei Kontrollvariablen hinzunehmen, um zu prüfen ob der Effekt der UV auf die AV allein durch die UV erklärt wird. Müssen die Voraussetzungen für eine lineare Regression lediglich unter Hibzunahme der UV und der AV betrachtet werden oder auch mit den Kontrollvariablen (die in dem Sinne aber ja keine hypothesenrelevanten Präsiktoren sind)?
Anna1801
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 17. Dez 2023, 14:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regression mit Kontrollvariablen

Beitragvon PonderStibbons » So 17. Dez 2023, 14:27

Du rechnest eine multiple lineare Regression und für die Validität der Ergebnisse sollten die Voraussetzungen erfüllt sein.
Was der Nutzer wie benennt, ob als hypothesenrelevant oder Kontrolle oder Mediator, Moderator, Suppressor usw., ist dem
Algorithmus nicht bekannt.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11261
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

Re: Regression mit Kontrollvariablen

Beitragvon Anna1801 » So 17. Dez 2023, 15:05

Vielen Dank für die Antwort. Also inkludiert man direkt die UV und die zwei Kontrollvariablen ins Modell? Woher weiß ich dann wie viel Varianz (R2) durch die eigentliche UV erklärt wird ? Müsste man dafür zuerst eine Regression nur mit den Kontrollvariablen rechnen und im nächsten Schritt die UV hinzunehmen und schauen wie viel zusätzliches R2 erzielt wird?
Anna1801
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 17. Dez 2023, 14:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regression mit Kontrollvariablen

Beitragvon PonderStibbons » So 17. Dez 2023, 16:13

Anna1801 hat geschrieben:Vielen Dank für die Antwort. Also inkludiert man direkt die UV und die zwei Kontrollvariablen ins Modell?

Das gibt es keine Vorschrift. Ich persönlich bevorzuge die nicht-schrittweise Aufstellung, also gleich das volle Modell.
Woher weiß ich dann wie viel Varianz (R2) durch die eigentliche UV erklärt wird ?

Du hast doch ein Regressionsgewicht im multiplen Vorhersagemodell. Oder worauf bezieht sich Deine Frage?
Müsste man dafür zuerst eine Regression nur mit den Kontrollvariablen rechnen und im nächsten Schritt die UV hinzunehmen und schauen wie viel zusätzliches R2 erzielt wird?

"Man" "muss" gar nichts. Wenn Dich delta R² interessiert, dann mach es halt so.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11261
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

Re: Regression mit Kontrollvariablen

Beitragvon Anna1801 » So 17. Dez 2023, 16:32

Bisher habe ich eine lineare Regression gerechnet und da dann berichtet wie viel Varianz in der AV durch die UV erklärt wird (also das R2). Wenn ich aber ja noch weitere Prädiktoren als Kontrollvariablen aufnehme bezieht sich das R2 ja auf das gesamte Modwll so dass nicht mehr gesagt werden kann wie viel R2 allein durch die interessierende UV erklärt wird oder? Und das Regeessionsgewicht ist ja nicht so relevant wenn man nur eine interessierende UV hat. Zumindest ist mein Verständnis so dass Beta hauptsächlich interessant wird wenn man mehrere UVs vergleichen will.

Also in meinem Fall ist es so dass die UV signifikant ist, aber die beiden Kontrollvariablen nicht. Was ist dann genau die Aussage? "Die UV hat einen signifikanten Einfluss unter Kontrolle der Störvariablen und erklärt xy Varianz in der AV auf?"
Anna1801
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 17. Dez 2023, 14:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regression mit Kontrollvariablen

Beitragvon PonderStibbons » So 17. Dez 2023, 17:02

Und das Regeessionsgewicht ist ja nicht so relevant wenn man nur eine interessierende UV hat.

R² = beta². Bei der einfachen Regression ist es exakt dasselbe. Und beide entsprechen r² einer Pearson-Korrelation.
Zumindest ist mein Verständnis so dass Beta hauptsächlich interessant wird wenn man mehrere UVs vergleichen will.

Dann erscheint Dein Verständnis unvollständig. Es ist das Regressionsgewicht, adjustiert für die anderen Variablen. Man kann es
auch für sich betrachten, wenn man ein entsprechendes Erkenntnisinteresse hat. Wobei b anschaulicher ist als beta,
meiner Wahrnehmung nach. Wenn das in Deiner Studie aber gar nicht interessiert, dann ist das natürlich ok so.

Also in meinem Fall ist es so dass die UV signifikant ist, aber die beiden Kontrollvariablen nicht. Was ist dann genau die Aussage? "Die UV hat einen signifikanten Einfluss unter Kontrolle der Störvariablen und erklärt xy Varianz in der AV auf?"

Ist Dir die Varianzaufklärung in der Stichprobe so wichtig? Bei kleinen Stichproben unter 300 oder so,
sind die Schätzfehler bzw. Konfidenzintervalle doch beachtlich bis immens.

Allerdings ist der Zusammenhang (wahrscheinlich nicht "Einfluss", also Kausalzusammenhang, es sein denn,
es ist eine experimentelle Studie?) nicht signifikant, sondern statistisch signifikant. Das eine heißt landläufig
"wichtig, relevant, bedeutend, groß". Das andere nur "Die Nullhypothese, dass der Koeffizient in der
Grundgesamtheit exakt = 0,00000... ist, wurde verworfen."

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11261
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2474 mal in 2458 Posts

Re: Regression mit Kontrollvariablen

Beitragvon Anna1801 » Di 19. Dez 2023, 08:08

Mein Output ist Z.B der hier:

Call:
lm(formula = scale(Wert) ~ scale(Total_EI) + Alter + F_Erf.f,
data = daten.fin)
Residuals:
Min 1Q Median 3Q Max
-2.50392 -0.53959 0.04463 0.57189 1.75062
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.88398 0.63488 1.392 0.167
scale(Total_EI) 0.47496 0.08498 5.589 0.000000218 ***
Alter -0.01773 0.01161 -1.527 0.130
F_Erf.f2-4 -0.03524 0.25165 -0.140 0.889
F_Erf.f5-7 0.36072 0.34070 1.059 0.292
F_Erf.f8-10 0.10020 0.34992 0.286 0.775
F_Erf.f1 -0.57106 0.37464 -1.524 0.131
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8428 on 95 degrees of freedom
(6 Beobachtungen als fehlend gelöscht)
Multiple R-squared: 0.2946, Adjusted R-squared: 0.2501
F-statistic: 6.613 on 6 and 95 DF, p-value: 0.000007258

Total EI meine interessierende UV, Alter als metrische Kontrollvariable und F.Erf.f ist ein Faktor mit 5 Stufen der in R automatisch dummycodiert wurde.

Würde man im Rahmen der Thesis dann nur schreiben
"Total EI erwies sich unter Kontrolle von Alter und Führungserfahrung als signifikanter Prädiktor (Beta, t-Wert, p-Wert). Mit R2 0.251 werden 25% der Varianz in Wert durch die Prädiktoren aufgeklärt. Das Modell ist signifikant und leistet einen Erklärungsbeitrag". Würde man auch noch aufführen dass Alter und Führungserfahren sich nicht als signifikante Prädiktoren erwiesen haben oder lässt man es raus weil es nur "Stör bzw Kontrollvariablen" sind?
Anna1801
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: So 17. Dez 2023, 14:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regression mit Kontrollvariablen

Beitragvon bele » Di 19. Dez 2023, 09:39

Hallo Anna,

Code: Alles auswählen
Multiple R-squared: 0.2946

...
Mit R2 0.251 werden 25% der Varianz in Wert durch die Prädiktoren aufgeklärt.


1. Nein, in der Stichprobe werden 29% der Varianz erklärt.
2. Das "im Wert" kannst Du weglassen.

Anna1801 hat geschrieben:Würde man auch noch aufführen dass Alter und Führungserfahren sich nicht als signifikante Prädiktoren erwiesen haben oder lässt man es raus weil es nur "Stör bzw Kontrollvariablen" sind?


Wenn es nur ein Poster mit wenig Platz ist, dass würde ich die Kontrollvariablen wahrscheinlich nicht aufführen. In einer Zeitschrift, Haus- oder Qualifikationsarbeit würde sich eine Regressionstabelle anbieten, wo der Interessierte das nachlesen kann, ohne dass es den Lesefluss im Text stört. Du könntest beispielsweise das Paket gtsummary nutzen, das sehr einfach schöne Tabellen erstellt, beispielsweise so:

Code: Alles auswählen
gtsummary::tbl_regression(lm(formula = scale(Wert) ~ scale(Total_EI) + Alter + F_Erf.f, data = daten.fin))


Es gibt viele schöne Alternativen für diesen Zweck in R. Wenn Du eine Word-Datei einreichst würde ich das Paket apaTables noch erwähnen, mehr dazu hier.


Wenn Du für F_Erf einen gemeinsamen p-Wert haben möchtest, also nicht nur für jede Faktorstufe einen, dann kannst Du das Regressionsergebnis an die Funktion anova() übergeben. Ich habe das mit einem Beispiel zum iris-Datensatz mal vorgemacht:

Code: Alles auswählen
m <- lm(Sepal.Length ~ Sepal.Width + Species, data = iris)
summary(m)
#>
#> Call:
#> lm(formula = Sepal.Length ~ Sepal.Width + Species, data = iris)
#>
#> Residuals:
#>      Min       1Q   Median       3Q      Max
#> -1.30711 -0.25713 -0.05325  0.19542  1.41253
#>
#> Coefficients:
#>                   Estimate Std. Error t value Pr(>|t|)   
#> (Intercept)         2.2514     0.3698   6.089 9.57e-09 ***
#> Sepal.Width         0.8036     0.1063   7.557 4.19e-12 ***
#> Speciesversicolor   1.4587     0.1121  13.012  < 2e-16 ***
#> Speciesvirginica    1.9468     0.1000  19.465  < 2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> Residual standard error: 0.438 on 146 degrees of freedom
#> Multiple R-squared:  0.7259, Adjusted R-squared:  0.7203
#> F-statistic: 128.9 on 3 and 146 DF,  p-value: < 2.2e-16
anova(m)
#> Analysis of Variance Table
#>
#> Response: Sepal.Length
#>              Df Sum Sq Mean Sq  F value  Pr(>F)   
#> Sepal.Width   1  1.412   1.412   7.3628 0.00746 **
#> Species       2 72.752  36.376 189.6512 < 2e-16 ***
#> Residuals   146 28.004   0.192                     
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Müsste man dafür zuerst eine Regression nur mit den Kontrollvariablen rechnen und im nächsten Schritt die UV hinzunehmen und schauen wie viel zusätzliches R2 erzielt wird?


PonderStibbons hat richtig geschrieben, dass man nichts muss. Ich finde den Gedanken aber gar nicht so schlecht. Manchmal wird ein Teil der Varianzaufklärung sowohl von UV1 als auch von UV2 geleistet. Mit dieser Methode kannst Du herausfinden, wieviel wirklich neues diese eine UV beiträgt (last one in the bus). Du musst halt überlegen, ob das irgendwas mit Deiner Fragestellung zu tun hat.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste

cron