STATISTIK-FORUM.de

Bell1410 · von **Bell1410** » Sa 30. Jul 2022, 20:37

Hallo zusammen,

ich sitze derzeit an der Präregistrierung einer Studie, in der der Einfluss von direkten Naturerfahrungen im Kindergarten auf das Umweltverhalten und Umweltbewusstsein im Erwachsenenalter untersucht werden soll.
Da es sich um ein sehr komplexes Design mit einigen Besonderheiten handelt, benötige ich dringend Hilfe bei der Planung der Auswertung und würde mich darüber sehr freuen! Im Folgenden stelle ich zunächst kurz das Design dar:

Es handelt sich um eine längsschnittliche Untersuchung.
Die UVs sind "die Zeit in wilder und gepflegter Natur im Kindergarten" (UV1) sowie die "Zeit in wilder Natur im Kindergarten" (UV2). Sie werden am Ende der Kindergartenzeit erhoben.
Die AVs sind das allgemeine Umweltbewusstsein (AV1), das Umweltverhalten (AV2) und das auswirkungsstarke Umweltverhalten (AV3) - jeweils erhoben mit 18 Jahren. Zusätzlich wird am Ende der Kindergartenzeit der Mediator des Zusammenhangs erhoben, die Naturverbundenheit (Connectedness to Nature) (M).

Dadurch, dass Waldkindergärten und normale Regelkindergärten inkludiert werden, soll Variation in den direkten Naturerfahrungen entstehen, d.h. Kinder sammeln in unterschiedlichem Ausmaß und vermutlich je nachdem, ob sie in einen Waldkindergarten oder Regelkindergarten gehen, mehr oder weniger Zeit in wilder Natur bzw. gepflegter Natur. Das bedeutet, dass keine randomisierte Zuordnung der Kinder zu den Kindergärten erfolgt.
Es soll sich über das längsschnittliche Design Kausalität angenähert werden. Abstriche sind diesbezüglich jedoch durch die fehlende Randomisierung und Kontrollgruppe zu machen. Dies soll wiederum ausgeglichen werden durch den Einschluss relevanter Kontrollvariablen (weiter unten dargestellt).

Die Hypothesen lauten:
H1: Je mehr Zeit Kinder während des Kindergartens in der Natur ("wilde" und "gepflegte") verbringen, desto stärker ist das Umweltbewusstsein mit 18 Jahren ausgeprägt.
H2: Je mehr Zeit Kinder während des Kindergartens in der "wilden" Natur verbringen, desto stärker ist das Umweltverhalten mit 18 Jahren ausgeprägt.
H3: Der Zusammenhang von Naturerfahrungen in der „wilden Natur“ und Umweltverhalten wird durch Connectedness to Nature vermittelt.
H4: Es gibt einen schwachen Zusammenhang zwischen Naturerfahrungen in der "wilden Natur" und auswirkungsstarkem Umweltverhalten (gemessen über den CO2 Fußabdruck).

Meine Ideen zur Auswertung sind:
Es liegt ja eine hierarchisch geschachtelte Datenstruktur vor. Die Kinder können Gruppen (L2) und Kindergärten (L3) zugeordnet werden. Folglich scheint eine Mehrebenenanalyse sinnvoll, d.h. zunächst die Berechnung der Intraclass-Correlation bezogen auf alle Hypothesen, um zu berücksichtigen, dass es erklärende Varianz auf der L2- und L3-Ebene geben kann.
Nun bin ich aber darüber gestolpert, dass es das Ziel der Mehrebenenanalyse ist, "durch Einführung von L2-Variablen (und cross-level Interaktionen) die Between-Varianz auf null zu bringen" (Urban, 2022). Es gibt aber nur L1-Prädiktoren, nämlich die Zeit in wilder bzw. wilder und gepflegter Natur, und keine L2- oder L3-Prädiktoren.
Es gibt zwar Kontrollvariablen über die gesamte Zeitspanne der Studie, die eingeschlossen werden sollen, aber das ist ja etwas anderes und man könnte diese auch nicht nach L2 oder L3 kategorisieren, da sie auch Faktoren repräsentieren, die außerhalb der Kindergartenzeit und damit der Cluster-Struktur gemessen werden. Folgende Kontrollvariablen sollen inkludiert werden:

Individual-Kontrollvariablen:
o Zeit, die Kinder außerhalb des Kindergartens in der Natur (wilde und gepflegte) verbringen
o Leben auf dem Land vs. Stadt
o Zeit, die Kinder im Schulalter in der Natur verbringen (außerhalb der Kindergartenzeit)
o Umweltlehre in der Schule (außerhalb der Kindergartenzeit)
o Sozioökonomischer Status der Eltern
o Umweltbewusstsein der Eltern
o Geschlecht

Kindergarten- bzw. Gruppen-Kontrollvariablen:
o Umweltbewusstsein der Pädagog:innen

Jetzt ist meine Frage: Macht hier trotzdem eine Mehrebenenanalyse Sinn, da es ja keine L2-oder L3-Prädiktoren gibt?
Worin liegt dann der Vorteil der Mehrebenenanalyse? Darin, dass man verschiedene theoretisch denkbare Modelle (also random intercept und random coefficient) unter Aufnahme des jew. Prädiktors und der Kontrollvariablen auf besten "fit" hin testen kann (über AIC, BIC)?

Sofern die Mehrebenenanalyse wirklich sinnvoll ist, habe ich folgende spezifischere Fragen dazu bzw. bräuchte eine kurze Absicherung, ob meine Überlegungen korrekt sind:
- Ich würde die Analyse in R durchführen mit "lme4" oder gibt es bessere/einfachere Alternativen?
- Ist es korrekt, dass random intercept und random coefficient denkbar sind oder gibt es noch andere Möglichkeiten, die zu testen sind und in der Präregistrierung genannt werden müssen?
- Wie müssten die Kontrollvariablen aufgenommen werden? Blockweise als erstes und danach der Prädiktor?
- Welche Maximum-Likelihood-Schätzung der Parameter sollte verwendet werden? Es gibt robuste und restricted ML-Methoden und mir ist nicht klar, welche ich einsetzen sollte.
- in der Literatur steht z.B., dass der Anteil der “Between-Varianz” mindestens 10% von der Gesamtvarianz der AV betragen sollte, damit eine Mehrebenenanalyse sinnvoll ist (Urban, 2022). Man bekommt ja zwei ICC-Werte, einmal für L2-Varianz und einmal für L3-Varianz. D.h. beide Werte sollten dann über 10% liegen?
- Es gibt auch Literatur, in der beschrieben ist, dass auch ICCs von 0,05 oder noch niedriger für eine Mehrebenenanalyse in Frage kommen (Cook et al., 1997). Wovon hängt die Entscheidung für die Grenze (10% oder 5%) ab?
-Für die kategorialen Kontrollvariablen “Wohnort (ländliche Umgebung vs. städtische Umgebung), Umweltlehre & Geschlecht wird eine Dummy-Kodierung vorgenommen?
- Es werden alle Prädiktoren vorab zentriert?
- Es muss bezüglich des alpha-Niveaus eine Bonferroni-Korrektur vorgenommen werden, da die Datensätze für die Hypothesentestungen teils mehrfach eingesetzt werden?
- H1, H2, und H4 werden einseitig getestet und H3 zweiseitig?
- Da ja auch für die Mediationshypothese eine Mehrebenenanalyse durchgeführt werden müsste und ich beim Recherchieren kaum etwas über das Vorgehen einer Mediationsanalyse im Rahmen einer Mehrebenenanalyse gefunden habe, würde ich mich hier besonders über Tipps zum Vorgehen freuen. Das Process Makro funktioniert z.B. nicht oder? Müsste man dann alle Pfade einzeln testen?

Über Antworten oder Ideen zu meinen Fragen oder auch prinzipiell Hinweise dazu, was ich unbedingt im Teil "Auswertung" der Präregistrierung schreiben sollte, würde ich mich angesichts des komplexen Designs sehr, sehr freuen! :-)

Viele Grüße :-)

PonderStibbons · von **PonderStibbons** » Sa 30. Jul 2022, 23:31

Da es sich um ein sehr komplexes Design mit einigen Besonderheiten handelt, benötige ich dringend Hilfe bei der Planung der Auswertung

Was heißt das konkret, muss die Hilfe bis Ende der kommenden Woche erfolgen oder dergleichen?

Es handelt sich um eine längsschnittliche Untersuchung.
Die UVs sind "die Zeit in wilder und gepflegter Natur im Kindergarten" (UV1) sowie die "Zeit in wilder Natur im Kindergarten" (UV2). Sie werden am Ende der Kindergartenzeit erhoben.
Die AVs sind das allgemeine Umweltbewusstsein (AV1), das Umweltverhalten (AV2) und das auswirkungsstarke Umweltverhalten (AV3) - jeweils erhoben mit 18 Jahren.

Das ist jetzt etwas überraschend. Es handelt sich um eine groß angelegte Längsschnittuntersuchung über einen Zeitraum
von mindestens 12 Jahren, und die Planung der statistischen Analysen erfolgt mithilfe eines anonymen online-Forums
anstatt durch eine zertifizierte statistische Stelle? Oder ist das bei der prä-Registrierung nicht so wild?

Mit freundlichen Grüßen

PonderStibbons

Bell1410 · von **Bell1410** » So 31. Jul 2022, 12:30

Hallo PonderStibbons,

Entschuldigung für die Verwirrung, ich hätte noch dazu schreiben sollen, dass es sich um ein Modul im Master Psychologie handelt, in dem es die Prüfungsleistung ist, eine theoretische Präregistrierung einer selbst konzipierten Studie durchzuführen. Die Studie muss nicht zwingend durchgeführt werden.
Die Aufgabe ist es also, die Präregistrierung so genau wie möglich auszuarbeiten. Ich habe schon sehr viel Zeit und Energie in die Konzeption und die bisherige Planung gesteckt und möchte natürlich auch bei der Auswertung das beste rausholen, weiß nur an manchen Stellen nicht weiter oder bin mir nicht sicher. Deswegen würde ich mich über Hilfe sehr freuen :-)

Die Ausarbeitung der Auswertung muss nicht zwingend bis Ende nächster Woche fertig sein. Allerdings ist die Abgabe in knapp einem Monat und es wäre super, wenn ich mit diesen schwierigen Teil dank Unterstützung voran komme :-)

Viele Grüße
Bell1410

bele · von **bele** » Do 4. Aug 2022, 17:58

Und ich ergänze ganz schnell mit weniger Statistik-, dafür mehr R-Kenntnissen:

Bell1410 hat geschrieben: Ich würde die Analyse in R durchführen mit "lme4" oder gibt es bessere/einfachere Alternativen?

Wenn es ein strikt lineares Modell mit Maximum Likelihood oder Restricted Maximum Likelihood sein soll, dann ist lme4 Stand der Dinge und das "normale" Paket, das man dazu nimmt.
Grundsätzlich hat man in R natürlich die Wahl. Wenn Du beispielsweise einen nicht-linearen Term im Sinne eines GAM drin haben möchtest, dann könntest DU mgcv benutzen, wenn Du Dein Modell als Bayes-Modell mit Markov-Chain-Monte-Carlo rechnen wolltest könntest Du dafür rstanarm oder brms verwenden. Die orientieren sich alle in der formula-Syntax an lmer und sollten daher nicht "einfacher" sein.

Vieles was in R geht, geht in JASP noch einfacher - vor allem gibt es einfacher die schönsten Ergebnistabellen preis. Ob JASP aber schon soweit ist, komplexe Mehrebenenmodelle zu berechnen, weiß ich nicht. Zur Not einfach mal installieren und schauen. Oder auf Youtube suchen, ob es schon Menschen gibt, die das dort mit JASP vormachen.

- Ist es korrekt, dass random intercept und random coefficient denkbar sind oder gibt es noch andere Möglichkeiten, die zu testen sind und in der Präregistrierung genannt werden müssen?

Bestimmt kann man das noch komplexer haben und R rechnet einem bestimmt auch noch random Interaktionen und random quadratische Effekte aus, ich weiß aber nicht, ob irgendwer sowas einsetzt. Gelesen habe ich bisher noch nichts in der Art, aber das bedeutet nichts. Ich denke, Du hast genügend Komplexität und würdest Schwierigkeiten mit dem Rekrutieren bekommen.

Das nächste Problem, das sich mir angesichts einer Studiendauer von rund zwei Dekaden aufdrängt ist eine hohe zu erwartende Lost-to-follow-up Rate. Was ist denn, wenn die Jungs zu wenig mobilen Männern werden und die Mädchen so extrem mobilen Frauen? Oder wenn durch die bei Frauen häufigeren Familiennamenwechsel der Kontakt häufiger abreißt? Willst Du das dann bei der Auswertung irgendwie berücksichtigen, zum Beispiel durch eine Gewichtung oder so? Ich finde, dass solche Gedanken für die Präregistrierung wichtig wären.

- Welche Maximum-Likelihood-Schätzung der Parameter sollte verwendet werden? Es gibt robuste und restricted ML-Methoden und mir ist nicht klar, welche ich einsetzen sollte.

Hier schreibt jemand, der den Unterschied zu verstehen scheint: https://towardsdatascience.com/maximum- ... cf79bef2cf Überhaupt erscheint mir das eher eine Frage für Google zu sein, wo man bestimmt sachkompetente Texte zu der Frage findet und zwar von Menschen, die sich genau mit dem Problem beschäftigt haben.

-Für die kategorialen Kontrollvariablen “Wohnort (ländliche Umgebung vs. städtische Umgebung), Umweltlehre & Geschlecht wird eine Dummy-Kodierung vorgenommen?

Ja? Übrigens schreiben wir das Jahr 2022 -- vielleicht solltest Du Dir über "Geschlecht" noch ein paar Gedanken mehr machen. Über 20 Jahre Studiendauer kann da ja auch within vieles passieren. Eventuell auch schon bei Jugendlichen. Ich weiß nicht, ob man das heutzutage nicht am besten schon im Studienprotokoll regelt.

...auch prinzipiell Hinweise dazu, was ich unbedingt im Teil "Auswertung" der Präregistrierung schreiben sollte, würde ich mich angesichts des komplexen Designs sehr, sehr freuen!

Die Autoren von lme4 schreiben in dieser Vignette https://cran.r-project.org/web/packages ... s/lmer.pdf auf Seite 35 einiges zum Thema p-values. War Dir klar, dass lme4::lmer keine ausgibt? Falls Du welche berechnen wolltest, wären da vielleicht auch noch Entscheidungen (tl;dr;) für die Präregistrierung zu fällen.

LG,
Bernhard

Bell1410 · von **Bell1410** » Mi 10. Aug 2022, 23:39

Hallo Bernhard,

vielen Dank für deine Hinweise! Insbesondere zu der package-Empfehlung lme4 und den fehlenden p-Werten, die ich nun über das package lmeTest erzeugen lasse.

Als mögliche random effects habe ich jetzt nur random intercept (und slope) aufgeführt. Der Prädiktor als fixed effect bleibt in den Modelltestungen jeweils gleich, nur die random effects variieren. So wird dann quasi explorativ getestet, welches random effects Modell am besten auf die Daten passt, und der dazugehörige für die Hypothesen entscheidende p-Wert für den fixed effect (also den Prädiktor) berichtet.
Bei Schätzung mit RE-ML können scheinbar auch Modellvergleiche über die "deviance" erfolgen wie bei full-ML, wenn die fixed-effects gleich bleiben wie hier; wobei dann die Signifikanz der Differenz in der Deviance zwischen zwei random-effects Modellen über das Package “varTestnlme” ausgegeben wird.
REML ist hier zu bevorzugen aufgrund einer möglichen geringen Stichprobengröße und weil es die random effects präziser schätzt als ML (auch wenn es in den Hypothesen primär um den fixed effect geht, aber die Clusterstruktur sollte ja trotzdem berückischtigt werden, sodass ich hoffe, dass das Vorgehen insgesamt korrekt ist. Ansonsten gerne korrigieren!)

Wie meinst du das mit der Gewichtung? Das habe ich noch nicht ganz verstanden. Dem Problem mit den möglichen Kontaktabbrüchen/Drop-Outs soll im Rahmen der Studienplanung durch regelmäßige Erinnerungen an die Studie, kleine Geschenke als Dankeschön nach dem Ausfüllen von Fragebögen und der Bitte zur Information bei Veränderung der Personen-bezogenen Daten entgegengewirkt werden. Kinder mit komplett fehlenden Daten für Prädiktor, Mediator oder AV sollen von den betreffenden Analysen ausgeschlossen werden, weil die Analysen ja auf individueller Entwicklung aufbauen.

Ich würde mich über eine Rückmeldung oder Korrekturen freuen :-)

LG

STATISTIK-FORUM.de

Mehrebenenanalyse sinnvoll? - komplexes Design

Mehrebenenanalyse sinnvoll? - komplexes Design

Re: Mehrebenenanalyse sinnvoll? - komplexes Design

Re: Mehrebenenanalyse sinnvoll? - komplexes Design

Re: Mehrebenenanalyse sinnvoll? - komplexes Design

Re: Mehrebenenanalyse sinnvoll? - komplexes Design

Wer ist online?