STATISTIK-FORUM.de

forenthomas · von **forenthomas** » So 16. Apr 2023, 12:28

Hallo zusammen,

ich zerbreche mir seit einiger Zeit den Kopf über ein Problem, vielleicht kann mir ja jemand helfen (bin ich bei der Qualität des Forums eigentlich sogar recht zuversichtlich):

Bühner, Statistik für Psychologen uns Sozialwissenschaftler, 2017, S. 433 f. gibt also Formel für die Effektstärke des Kruskal-Wallis-Tests $\omega = \sqrt{X^2/n}$ an mit den nach Cohen (1988) bekannten Grenzen 0.1, 0.3 und 0.5 für den kleinen, mittleren und großen Effekt. Angenommen ich habe eine Stichprobe vom Umfang 30 und drei Stufen, also 10 Werte je Stufe. Nun rechne ich um und erhalte für einen großen Effekt ein X² von 7.5.

Bühner empfiehlt nun für die Ermittlung der Teststärke G*Power, generischer X²-Test, Post hoc. Für den geforderten Noncentrality parameter $\lambda$ empfiehlt er X² einzugeben, wobei er den empirischen Wert wählt. Wenn ich aber die Teststärke nicht für den empirischen Wert haben möchte - was ich immer etwas komisch da ja nachträglich betrachtet finde - sondern für einen großen Effekt und daher die 7.5 eingebe dann erhalte ich eine Teststärke von gerade einmal 68%. Habe ich kleinere Stichproben sinkt mein X² (umgeformt: X² = n x 0.5²) weiter und damit sinkt auch die Teststärke weiter - was ja auch Sinn macht.

Möchte ich eine "vernünftige" Teststärke von 80% erreichen (95% wären mir lieber, aber halten wir uns mal wieder an Cohen), dann bräuchte ich einen Parameter Lambda in G*Power von 9.7. Nehme ich den wieder als X² und rechne für einen großen Effekt von 0.5 um dann lande ich bei einem Stichprobenumfang von

$n = 9.7 \cdot 0.5^2 = 38.8 \approx 40$ .

Würde das nicht bedeuten, dass Kruskal-Wallis erst aber Stichprobenumfängen von 40 wirklich Sinn macht? Ich meine, warum mache ich einen Test, wenn die Wahrscheinlichkeit, einen großen Effekt zu entdecken, weniger als 80% beträgt. Oder wäre müsste man sich schlichtweg von Cohen verabschieden? Ähnliche Überlegungen treiben mich übrigens auch für andere nicht parametrische Tests um, aber ich habe es hier mal am Kruskal-Wallis Test aufgedröselt.

Gruß
Thomas

PonderStibbons · von **PonderStibbons** » So 16. Apr 2023, 13:33

Ich meine, warum mache ich einen Test, wenn die Wahrscheinlichkeit, einen großen Effekt zu entdecken, weniger als 80% beträgt.

70% ist doch auch eine schöne Zahl.

Außerdem sorgen die researcher degrees of freedom normalerweise dafür, dass die reale power höher liegt als die theoretisch ermittelte.

Oder wäre müsste man sich schlichtweg von Cohen verabschieden?

Ich weiß nicht, was damit gemeint ist, aber mittelfristig wird man sich ohnehin vom ganzen frequentistischen Paradigma verabschieden
und z.B. Bayes und Machine Learning als erstrangige Methoden verwenden. Signifikanztests sind puppenleicht durchzuführen, aber
kaum sinnvoll interpretierbar in der praktischen Anwendung. Zumal sie ja auch dauernd für Dinge verwendet werden, für die sie
nicht gedacht waren (z.B. Parametertestungen innerhalb multipler Regressionsanalysen).

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
forenthomas

bele · von **bele** » So 16. Apr 2023, 17:33

Der Cohen kommt halt aus einem sozialwissenschaftlichen Kontext. Wenn Du aus drei Persönlichkeitsfragebögen, dem Bildungsabschluss der Mutter und der Konfession die Lebenszufriedenheit vorhersagen willst, glaubst Du dann wirklich an eine Studie mit weniger als 40 Teilnehmern?

Der Louis Pasteur hat damals ein einziges Kind gegen Tollwut geimpft und damit die Wirkung der Tollwutimpfung beweisen können. Warum? Weil der Effekt groß und die Nachweismethoden präzise waren. Wer von einem tollwütigen Hund gebissen wird, der erkrankt an Tollwut und das kann man durch Tod nach wenigen Wochen sehr präzise messen. n = 1 Kinder wurden geimpft und sind nicht nach einigen Wochen an Tollwut gestorben. Da braucht man kein statistisches Testverfahren.

Ganz sicher gibt es auch in den Sozialwissenschaften mal Studien mit großer Effektstärke und präziser Messung der Endpunkte, aber das sind dann eben Ausnahmen. Ausnahmen, für die diese merkwürdigen Einteilungen von Cohen dann halt nicht gelten.

Dass wir den Frequentismus und p-Werte und damit die Frage der Power in absehbarer Zeit überwinden glaube ich nicht. Die Medizin wird sich zu meinen Lebzeiten nicht mehr zu einem Bayes-Gebiet verändern und solange man am Ende binäre Entscheidungen fällen muss (Impfung wird von der Stiko empfohlen oder nicht) wird man auch dem Problem nicht entkommen, dass man für fehlerbehaftete Messungen und Effektstärken deutlich unter eins ausreichend hohe Beobachtungszahlen braucht.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
forenthomas

forenthomas · von **forenthomas** » Mi 19. Apr 2023, 11:11

Hallo,

herzlichen Dank, das hilft mir. Zumindest bin ich mir jetzt sicherer, dass das in vielen Lehrbüchern zu findende: "Mach das so, schmeiß die Zahlen in den richtigen Test, interpretier mit Cohen (1988) und fertig." so oft eher kontraproduktiv ist.

Lieben Gruß,
Thomas

PonderStibbons · von **PonderStibbons** » Mi 19. Apr 2023, 11:39

Mit Cohen kann man eigentlich die Stichprobendaten nicht interpretieren.
Die Stichprobenkoeffizienten sind ja nicht die tatsächlichen Effekte aus der
Grundgesamtheit, sondern per Zufall größer oder kleiner. Manche scheinen
aber an eine Magie zu glauben, durch die ein "statistisch signifikantes"
Testergebnis den Stichprobenkoeffizienten in den korrekten Koeffizienten
für den tatsächlichen Effekt verwandelt. So liest man dann sinngemäß
etwas wie, "hey, es gibt einen starken Zusammenhang zwischen
Körpergröße und Narzissmus (r=0,5)." Dass das auf n=16 beruht und
der Koefizient dadurch einen großen Standardfehler hat, geht dabei
irgendwie verloren, weil ja H0:r=0,000 auf dem 5%-Niveau verworfen wurde.

bele · von **bele** » Mi 19. Apr 2023, 16:36

Ich kann den Punkt von PonderStibbons mal mit einem konkreten Zahlenbeispiel untermauern:

Code: Alles auswählen: Körpergewicht Narzissmus 1 165.5 32 2 180.4 139 3 176.0 129 4 166.9 99 5 161.5 84 6 160.3 44 7 163.4 123 8 175.3 77 9 171.2 99 10 164.3 57 11 172.5 101 12 152.3 91 13 139.4 56 14 189.6 105 15 163.5 28 16 175.3 129

Sechzehn Beobachtungen, der Zusammenhang ist r = 0,52 und statistisch signifikant (p < 0,05). Der Zusammenhang also bewiesen und quantifiziert.

Ok, wenn man ein Konfidenzintervall für r angeben würde, dann würde das von 0.03 bis 0,81 reichen, aber das tut man ja nicht.

So gesehen ist es erstmal gut, dass der Cohen, wie forenthomas erkannt hat, solche Studien an n = 16 erstmal nicht fördert. In der Vergangenheit wurde ich ein paarmal genötigt, Fallzahlschätzungen zu erstellen, wo das nicht wirklich ging. Da ist es dann sehr hilfreich, Cohen anrufen zu können und sich eine von drei Fallzahlen aussuchen zu können, die einem machbar und plausibel erscheint.

dass das in vielen Lehrbüchern zu findende [...] so oft eher kontraproduktiv ist.

Kann ich nicht bestätigen, aber vielleicht habe ich die falschen Lehrbücher gelesen. Mein Lieblingsvortrag auf Youtube stammt von Andrew Gelman und heißt "Crimes against Data": https://www.youtube.com/watch?v=fc1hkFC2c1E
Wenn Du mal einen Moment Zeit hast, schau mal rein. Er zeigt nicht, was in Lehrbüchern steht, sondern was peer reviewed publiziert wird.

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Mi 19. Apr 2023, 18:08

bele hat geschrieben:In der Vergangenheit wurde ich ein paarmal genötigt, Fallzahlschätzungen zu erstellen, wo das nicht wirklich ging. Da ist es dann sehr hilfreich, Cohen anrufen zu können und sich eine von drei Fallzahlen aussuchen zu können, die einem machbar und plausibel erscheint.

Ich finde den Ausdruck sample size Samba ganz schön...

STATISTIK-FORUM.de

Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Re: Teststärke und Stichprobengröße Bsp. Kruskal-Wallis

Wer ist online?