Seite 1 von 2

ANOVA für lineare Modelle

BeitragVerfasst: Mi 12. Jun 2019, 19:35
von kleinersven
Hallo,
ich habe mal eine generelle Frage: ich möchte die Signifikanz einer meiner Variablen aus einem einfachen linearen Modell y=x+a+b... testen. Dafür habe ich ein Modell ohne die Variable und eines mit der Variablen erstellt und die beiden mittels ANOVA verglichen.
Ist das eine gute Vorgehensweise oder nutzt man das nur bei linear mixed models? (so habe ich es mal gelesen).
Und müssen die Daten alle normalverteilt sein für lineare Modelle?
Danke!
Grüße,
kleinersven

Re: ANOVA für lineare Modelle

BeitragVerfasst: Do 13. Jun 2019, 02:56
von strukturmarionette
Hi,

Und müssen die Daten alle normalverteilt sein für lineare Modelle?

- Nein.

Gruß
S.

Re: ANOVA für lineare Modelle

BeitragVerfasst: So 16. Jun 2019, 14:19
von kleinersven
Noch eine Frage:
Macht es einen Unterschied ob ich
y~1+a+b oder
y~a+b rechne?
Weil ich habe das nun schon unterschiedlich gesehen aber wenn ich beides in R eingebe habe ich die gleichen Ergebnisse.

Re: ANOVA für lineare Modelle

BeitragVerfasst: So 16. Jun 2019, 18:00
von bele

Re: ANOVA für lineare Modelle

BeitragVerfasst: Mo 17. Jun 2019, 08:51
von kleinersven
Danke du hast mir wirklich sehr geholfen bisher! Vielleicht kannst du mir auch bei folgendem Problem noch weiterhelfen.... sorry ich will nicht nerven aber mir kommen ständig neue Fragen auf und ich finde im Internet oft nicht die konkreten Antworten darauf.
Also ich habe einen Datensatz für den ich einmal die Interaktion von Rauchen mit dem einen Fragebogen und dann die Interaktion von Rauchen mit einem anderen Fragebogen errechnen möchte. Zuvor habe ich das Rauchen in ein Modell jeweils ohne Interaktion eingebaut um eine Basis für die anschließende ANOVA zu haben.

> xmdl7 <- (lm (a$RT~Fragebogen1+a$cond+a$emo+a$Rauchen))
> summary(xmdl7)

Call:
lm(formula = a$RT ~ 1 + a$Fragebogen1 +
a$cond + a$emo + a$Rauchen)

Residuals:
Min 1Q Median 3Q Max
-350.43 -56.03 -9.48 47.42 319.61

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 496.26023 0.48535 1022.470 <2e-16 ***
Fragebogen1 -0.77363 0.05499 -14.069 <2e-16 ***
a$cond2 87.04658 0.56284 154.656 <2e-16 ***
a$emo95 8.02689 0.56208 14.281 <2e-16 ***
a$Rauchen1 1.97958 1.04650 1.892 0.0585 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 80.72 on 82494 degrees of freedom
(5981 observations deleted due to missingness)
Multiple R-squared: 0.2278, Adjusted R-squared: 0.2278
F-statistic: 6084 on 4 and 82494 DF, p-value: < 2.2e-16

> xmdl6 <- (lm (a$RT~1+a$Fragebogen2+a$cond+a$emo+a$Rauchen))
> summary(xmdl6)

Call:
lm(formula = a$RT ~ 1 + a$Fragebogen2 + a$cond + a$emo + a$Rauchen)

Residuals:
Min 1Q Median 3Q Max
-348.15 -56.14 -9.32 47.49 316.08

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 498.30480 1.28362 388.202 <2e-16 ***
a$Fragebogen2 -0.12561 0.06615 -1.899 0.0576 .
a$cond2 87.06706 0.56350 154.511 <2e-16 ***
a$emo95 8.02981 0.56275 14.269 <2e-16 ***
a$Rauchen1 2.30021 1.05924 2.172 0.0299 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 80.82 on 82494 degrees of freedom
(5981 observations deleted due to missingness)
Multiple R-squared: 0.226, Adjusted R-squared: 0.2259
F-statistic: 6021 on 4 and 82494 DF, p-value: < 2.2e-16



Wieso ist Rauchen in dem einen Modell nicht signifikant aber in dem anderen Modell schwach signifikant obwohl es aus dem gleichen Datensatz genommen wurde und lediglich vorne Fragebogen1 durch Fragebogen2 ausgetauscht wurde? Weil im Bezug auf das y, nämlich RT sollte sich doch eigentlich nichts ändern?

Re: ANOVA für lineare Modelle

BeitragVerfasst: Mo 17. Jun 2019, 11:12
von bele
Hallo sven,

das ist aber ein verdammt großer Datensatz, den Du da hast. Respekt. Kann aber auch ein Fluch sein. Unter anderem, weil dann winzige Effekte deutlich werden, die man eigentlich vernachlässigen kann. Ich weiß nicht, wofür dieses RT steht, das Du da vorhersagst. Da der Intercept schon fast bei 500 liegt, welche Rolle spielt es da, ob man einem Raucher im einen Fall nochmal 2,3 mehr oder im anderen Fall nur 2,0 mehr vorhersagt? Zumal, wenn die Prognose mit 22% Varianzaufklärung ohnehin nur einen ganz ungefähren Schätzer darstellt? In beiden Fällen scheint der Einfluss von Rauchen eher überschaubar zu sein, sodass angesichts der großen Datenmenge und damit starken Power der Unterschied zwischen signifikant und nicht signifikant vermutlich eher akademisch ist.

Akademisch wäre zu untersuchen, ob Raucher und Nichtraucher unterschiedliche Werte in den beiden Fragebögen erzielen. Vielleicht steckt in Fragebogen 1 schon soviel Information darüber drin, ob einer Raucher ist, dass die Spalte "Rauchen" dafür gar nicht mehr benötigt wird?

LG,
Bernhard

Re: ANOVA für lineare Modelle

BeitragVerfasst: Mo 17. Jun 2019, 21:42
von kleinersven
Danke für deine Einschätzung, so habe ich das echt noch nicht betrachtet.
Meinst du das ist ein Witz sowas zu veröffentlichen? Es geht um meine Doktorarbeit.
RT steht für Reaktionszeit... aber der Effekt ist ja echt überall sehr klein auch für die Fragebögen selbst (0,12/0,77)... aber das sind eben meine Fragestellungen die ich klären möchte, heißt ich muss die Modelle ja so veröffentlichen oder?

Re: ANOVA für lineare Modelle

BeitragVerfasst: Mo 17. Jun 2019, 21:47
von kleinersven
Und ich soll mich primär auf die Reaktionszeit und was verschiedene Fragebögen etc. mit dieser machen konzentrieren... daher wäre eine reine Untersuchung von Fragebögenscores hinsichtlich Rauchen/Nicht-Rauchen glaube ich am Thema vorbei....
Oh mann ich bin gerade ein wenig geknickt und mache mir Sorgen, dass die Doktorarbeit ein totaler Reinfall wird. Habe halt auch überhaupt keine gute Betreuung muss ich sagen, daher bin ich so sehr auf Foren angewiesen und bin daher echt froh über deine Hilfe!

Re: ANOVA für lineare Modelle

BeitragVerfasst: Di 18. Jun 2019, 08:14
von bele
kleinersven hat geschrieben:Danke für deine Einschätzung, so habe ich das echt noch nicht betrachtet.
Meinst du das ist ein Witz sowas zu veröffentlichen?


Hoffentlich hast Du mich da nicht völlig falsch verstanden. Da ich nicht weiß, was Du untersuchst und da ich mich in Deinem Fachgebiet vermutlich nicht auskenne, traue ich mir kein Urteil darüber zu, was für Dich publizierbar ist, und was nicht. Es kommt halt immer auf den Inhalt der Arbeit an. Mal sind 22% Varianzaufklärung enorm viel, mal nicht. Aber Rauchen scheint in beiden Modellen sehr wenig Einfluss zu haben. So wenig, dass der Unterschied signifikant/nicht-signifikant wahrscheinlich nicht wirklich bedeutsam ist.

RT steht für Reaktionszeit... aber der Effekt ist ja echt überall sehr klein auch für die Fragebögen selbst (0,12/0,77)... aber das sind eben meine Fragestellungen die ich klären möchte, heißt ich muss die Modelle ja so veröffentlichen oder?


Da fehlt jetzt echt der Kontext, um Dir zu sagen, was Du veröffentlichen musst. Einen Tipp hätte ich aber doch noch: Reaktionszeiten sind oft sehr schief verteilt und oft passen ihre Logarithmen besser in ein lineares Modell als die absoluten Werte. Ist meist einen Versuch wert. Was für R² Werte bekommst Du denn mit
Code: Alles auswählen
lm( log(a$RT) ~ Fragebogen1+a$cond+a$emo+a$Rauchen )


PS: Gibt es irgendeinen Grund, warum Fragebogen2 eine Spalte in a ist, Fragebogen1 aber nicht in a ist? Das ist statistisch natürlich egal, aber gute Datenhaltung in R würde ich anders vorschlagen.

LG,
Bernhard

Re: ANOVA für lineare Modelle

BeitragVerfasst: Di 18. Jun 2019, 08:35
von kleinersven
PS: Gibt es irgendeinen Grund, warum Fragebogen2 eine Spalte in a ist, Fragebogen1 aber nicht in a ist? Das ist statistisch natürlich egal, aber gute Datenhaltung in R würde ich anders vorschlagen.
--> das war nur ausversehen weil ich beim Reinkopieren hier in das Forum das "a" ausversehen gelöscht habe bei Fragebogen1, der ist eigentlich im richtigen Modell auch in "a"

Das mit der log-Transformierung hatte ich auch schon ausprobiert und macht mein R² leider auch nicht besser :/ Und wenn ich mir die RT´s in ggnorm anschaue dann sind sie tatsächlich auch gut normalverteilt sodass ich sie eigentlich gar nicht transformieren müsste.
Vielleicht sollte ich die Fragebögen irgendwie noch transformieren? weil emo und cond sind kategoriable Variablen die kann ich nicht groß verändern.
Die Fragebögen haben auch immer nur 0,XXX Einfluss (aber signifikant) auf die Reaktionszeit, was also sogar weniger ist als Rauchen und daher eigentlich ebenfalls nicht sonderlich toll sodass mein Fazit eigentlich sein müsste dass ich keinen Effekt darstellen konnte :/ Ernüchternd irgendwie