STATISTIK-FORUM.de

PonderStibbons · von **PonderStibbons** » Di 18. Mär 2014, 13:31

Aber genau das mein' ich doch: Wenn ich eine Wahlumfrage mache und die Ergebnisse sollen belastbar sein, werde ich mir sehr viel Mühe geben, dass ich eine einigermaßen repräsentative Stichprobe erhalte (also Zufallsstichprobe und eine gewisse Größe der Stichprobe). Wenn ich mir aber soviel Arbeit mache, kann ich genausogut eine Stichprobe ziehen die so groß ist, dass ich keinen Signigikanztest mehr brauche (weil eh alles signifikant würde).

Die Größe der Stichprobe beeinflusst die Präzision der Schätzung (Größe des Standard-
Schätzfehlers). Dass es eine Zufallsauswahl ist, stellt sicher, dass die Stichprobenelemente
voneinander unabhängig und die Schätzungen bzw. Tests nicht durch Abhängigkeit von
Beobachtungen verzerrt werden. Welcher Art die Grundgesamtheit ansonsten ist, aus der
die Elemente gezogen werden, interessiert den Signifikanztest nicht. Da muss halt der
Untersucher schauen, ob er eine Stichprobe ziehen konnte aus der Grundgesamtheit,
die ihn interssiert (falls es überhaupt interessiert), bzw. ob seine Ergebnisse übertragbar
sind auf andere Populationen.

In der Medizin z.B. hat man das alle Tage, die Patientenkollektive in Zulassungsstudien
sind (aus vielen guten Gründen) anders zusammengesetzt als "echten" Patientenkollektive
aktuelle und zukünftige), bei denen ein Medikament zum Einsatz kommen kann. Daher
muss man weiter untersuchen, ob sich das auch in "typischen" und auch in neuen Kollektiven
bestätigt.

Mir scheint, dass viele Anwender Signifikanztests oder deren Sinn nicht verstehen, aber man will sich ja nicht als Volldepp outen und macht das Spiel daher lieber mit....

Die Annahme, dass die meisten Anwender den Sinn nicht verstehen, ist richtig und durch
eine Reihe von Studien bestätigt.

Mit freundlichen Grüßen

P.

Mofflerin · von **Mofflerin** » Di 18. Mär 2014, 16:22

PonderStibbons hat geschrieben:

In der Medizin z.B. hat man das alle Tage, die Patientenkollektive in Zulassungsstudien
sind (aus vielen guten Gründen) anders zusammengesetzt als "echten" Patientenkollektive
aktuelle und zukünftige), bei denen ein Medikament zum Einsatz kommen kann. Daher
muss man weiter untersuchen, ob sich das auch in "typischen" und auch in neuen Kollektiven
bestätigt.

Ich finde das ist ein gutes Beispiel. Wozu hier überhaupt einen Signifikanztest machen? Die einzige Auswirkung dürfte die Verwirrung des Durchführenden sein. Warum nicht lediglich deskriptiv sich die Werte ansehen und schauen, ob sich die Befunde an "typischen" Patientengruppen replizieren lassen?

bele · von **bele** » Di 18. Mär 2014, 16:45

Hallo Mofflerin,

wenn Du der Frage nach Signifikanztesten nachgehst dann ist die Frage, aus welchen Studienpopulationen man auf welche Grundgesamtheiten schließen kann, sicher berechtigt. Das ist aber beileibe nicht das einzige Problem von Nullhypothesen-Signifikanztestungen; und je nachdem wo die Fragestellung her kommt wirst Du sie nicht beantworten, wenn Du nur diesen einen Aspekt beleuchtest.

Denk auch mal an Alpha-Fehler-Kumulation, an Publikationsbias etc. Außerdem an das Problem, dass ein p-Wert zwar helfen kann, eine Nullhypothese zu verwerfen aber nicht, sie zu bestätigen. Gestern ist dieser Blog erschienen, der ein nettes Beispiel bespricht, in dem behauptet wird, es gäbe keinen Effekt, weil p=0,09 war: http://www.r-bloggers.com/bayesian-firs ... tion-test/
Um dieses Problem einzudämmen macht man Fallzahlschätzungen, diese aber zumeist aufgrund angenommener Daten, viel zu selten aufgrund gemessener Daten. Denk mal an das Problem wiederholten Testens etc. (auch den Blogeintrag vom 14.3. auf http://doingbayesiandataanalysis.blogspot.de/ ).

Will sagen: Je nach Aufgabenstellung nicht zu sehr auf diese eine Frage der Übertragbarkeit von Studienkollektiven versteifen.

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Di 18. Mär 2014, 16:53

Ich finde das ist ein gutes Beispiel. Wozu hier überhaupt einen Signifikanztest machen?

Bei einer randomisierten Studie sterben in der Placebo-Gruppe
30 von 80 Behandelten, in der Verum-Gruppe sterben 25 von 80
Behandelten. Wie kann man entscheiden, ob die Annahme
verworfen werden sollten, dass sich die Sterberaten nur durch
den Stichprobenzufall Zufall unterscheiden, also ob die Nullhypothese
verworfen werden kann, dass die Differenz der Sterberaten zwischen
den beiden Grundgesamtheiten = 0 beträgt.

Warum nicht lediglich deskriptiv sich die Werte ansehen und schauen, ob sich die Befunde an "typischen" Patientengruppen replizieren lassen?

Weil aufgrund von Stichproben-Deskriptivstatistiken nicht
entschieden werden kann, ob ein vom Zufall unterschiedlicher
Effekt vorliegt oder aber ob ausschließlich der Stichprobenzufall
das Ergebnismuster verursacht.

Natürlich wäre es schön, wenn man mehr mit Replikation arbeiten
würde, sowohl in der Wissenschaft als auch in der Anwendung, aber
es geht nicht immer (Medikamentenstudien verlangen eine Entscheidung),
und man möchte auch wissen, ob sich der Aufwand wohl lohnt.

Aber das ist eigentlich ein anderes Thema als die Frage, ob eine
Zufallsstichprobe aus der Population stammen muss, die sich der
Untersucher wünscht, damit die Aussagen eines Signifikanztests
gültig sind.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
Mofflerin

Mofflerin · von **Mofflerin** » Mi 19. Mär 2014, 13:40

bele hat geschrieben:Hallo Mofflerin,

wenn Du der Frage nach Signifikanztesten nachgehst dann ist die Frage, aus welchen Studienpopulationen man auf welche Grundgesamtheiten schließen kann, sicher berechtigt. Das ist aber beileibe nicht das einzige Problem von Nullhypothesen-Signifikanztestungen; und je nachdem wo die Fragestellung her kommt wirst Du sie nicht beantworten, wenn Du nur diesen einen Aspekt beleuchtest.

Denk auch mal an Alpha-Fehler-Kumulation, an Publikationsbias etc. Außerdem an das Problem, dass ein p-Wert zwar helfen kann, eine Nullhypothese zu verwerfen aber nicht, sie zu bestätigen.

Die meisten der genannten Fehler kann man aber irgendwie handeln.

Alpha-Fehler: Gibt es zig Korrekturen, wobei ich Signifikanz als dichotomie eh problematisch finde, schreibe gleich noch was dazu...

Publikationsbias: Finde ich schon schwerwiegender, hier helfen selbst Effektstärkeanalysen nichts...warum ändern die Zeitschriften nicht endlich Ihre Kriterien nach denen ein Artikel angenommen wird? In den Beiräten sitzen doch gestandene Wissenschaftler, das kann doch nicht so schwer sein?

Nullhypothese beweisen: Da gibts Äquivalenztests. Ist ganz interessant. Man legt ein Intervall um den "Nullwert" und testet die Ränder mit t-Tests. Kann Literaturangaben raussuchen, falls es Dich interessiert...

Gestern ist dieser Blog erschienen, der ein nettes Beispiel bespricht, in dem behauptet wird, es gäbe keinen Effekt, weil p=0,09 war: http://www.r-bloggers.com/bayesian-firs ... tion-test/
Um dieses Problem einzudämmen macht man Fallzahlschätzungen, diese aber zumeist aufgrund angenommener Daten, viel zu selten aufgrund gemessener Daten. Denk mal an das Problem wiederholten Testens etc. (auch den Blogeintrag vom 14.3. auf http://doingbayesiandataanalysis.blogspot.de/ ).

Was sind Fallzahlschätzungen?

Will sagen: Je nach Aufgabenstellung nicht zu sehr auf diese eine Frage der Übertragbarkeit von Studienkollektiven versteifen.

Mein Punkt war grundsätzlicher als die von Dir genannten Probleme: Ungeachtet aller Probleme beim Testen, habe ich den grundsätzlichen (!) Nutzen von Signifikanztests angtezweifelt. Ponder hat mir hier aber einen für mich interessanten Denkanstoß gegeben, schreibe gleich noch was dazu...

Mofflerin · von **Mofflerin** » Mi 19. Mär 2014, 13:46

PonderStibbons hat geschrieben:
Ich finde das ist ein gutes Beispiel. Wozu hier überhaupt einen Signifikanztest machen?

Bei einer randomisierten Studie sterben in der Placebo-Gruppe
30 von 80 Behandelten, in der Verum-Gruppe sterben 25 von 80
Behandelten. Wie kann man entscheiden, ob die Annahme
verworfen werden sollten, dass sich die Sterberaten nur durch
den Stichprobenzufall Zufall unterscheiden, also ob die Nullhypothese
verworfen werden kann, dass die Differenz der Sterberaten zwischen
den beiden Grundgesamtheiten = 0 beträgt.

Das löst meinen Knoten: Ich war die ganze Zeit nur bei der Übertragbarkeit auf die "wahre" Grundgesamtheit. Aber du hast natürlich recht, auch wenn man einen Effekt auf "irgendeine" Grundgesamtheit übertragen kann, ohne genau zu wissen welche das eigentlich ist, hat man schon was gewonnen. Das heißt dann immerhin, dass bei irgendwelchen Patienten das Verum schon mal funktioniert hat...

Da hätte ich mich fast in was verrant.

Ich find's aber problematisch, das Signifikanz dichotom gesehen wird (sig. vs. n.s.), v.a. weil das eine Einfachheit der Interpretation suggeriert, die so gar nicht gegeben ist. Erfreulich ist ja schon mal, dass (zumindest in der Psychologie) meistens die exakten p-Werte berichet werden. Müsste man den p-Wert nicht immer vor dem Hindergrund der Stichprobengröße interpretieren? So an und für sich sagt er ja wenig aus...

Vielleicht könnte man das ja sogar formalisieren, etwa indem man einen Quotienten aus p-Wert und n bildet? Naja, sicher würde man das schon längst so tun, wenn das so einfach wäre, aber andererseits, warum eigentlich nicht?

bele · von **bele** » Mi 19. Mär 2014, 14:04

Signifikanz ist nur dichotom zu sehen - weil p-Werte keine Maßeinheit sind. Daher ist auch p/n nicht wirklich sinnvoll. Denn:

1. Gilt die Nullhypothese, dann ist p eine uniform verteile Zufallszahl.
2. Gilt die Nullhypothese nicht, dann gibt es keine allgemeingültige Definition von p.

Weder eine Zufallszahl durch n noch ein nicht definierter Wert durch n wäre sinnvoll. Man tut zwar nicht p/n berechnen aber man gibt Effektstärkemaße an. Es ist aber ganz, ganz wichtig zu verstehen, dass p kein Maß der Effektstärke ist.

Statt "Fallzahlschätzung" hätte ich besser "Fallzahlplanung" schreiben sollen, beides führt bei Google aber zu guten Treffern.

Man muss p-Werte vor dem Hintergrund der Fallzahl aber auch vor dem Hintergrund der Präzision oder der zu erwartenden Messfehler oder nicht berücksichtigten Einflussfaktoren sehen.

Betrachtet man p ohne diese Hinweise und ohne Effektstärkemaß, dann ist es ohnehin sinnlos. Die Nullhypothese behauptet immer, dass zwei Aspekte mit einem Zusammenhang von genau 0 voneinander unabhängig sind. In allen hinreichend komplexen Systemen (und damit in Biologie, Soziologie, Medizin, Wirtschaftswissenschaften, etc) darf man davon ausgehen, dass ohnehin alles mit allem irgendwie zusammen hängt und dass nahezu keine Nullhypothese zutrifft. Es geht also immer nur um die Frage, ob man das Falschsein der Nullhypothese mit dieser Fallzahl und dieser Messmethode schon zeigen kann, falsch ist sie sowieso.

Und zuletzt: Nein: Die alpha-Adjustierung ist nicht der heilige Gral zum Vermeiden des Problems multiplen Testens. Mit der Alpha-Adjustierung kannst Du Dir nur aussuchen, ob der Fehler 1. Art oder der Fehler 2. Art wichtiger ist.

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Mi 19. Mär 2014, 14:17

Ich find's aber problematisch, das Signifikanz dichotom gesehen wird (sig. vs. n.s.), v.a. weil das eine Einfachheit der Interpretation suggeriert, die so gar nicht gegeben ist.

Fisher (siehe Gigerenzer-Artikel) hatte sich das ursprünglich auch
nicht so gedacht. Bei Neyman-Pearson ergibt die Dichotomie Sinn,
weil es da um ein Entscheidungsverfahren geht (z.B. welche Pflanzenart
säe ich aus; muss ich die Produktion stoppen, weil der Prozess
zu fehleranfällig ist, sowas halt); Fisher dachte eher an die Wissenschaft,
und da ist diese dichotome Denken natürlich im höchsten Grade
problematisch. Irgendwelche Signifikanzgrenzen gab es bei ihm
ursprünglich AFAIR nicht, eben nur p-Werte. Dass er später
Signifikanzgrenzen angegeben hat, hat er dann noch später
bedauert. Den Bastard aus Fisher und Neyman-Pearson, mit
dem wir leben müssen, haben beide Seiten ebenfalls nicht gewollt,
aber bis die Bayes-Statistk oder was auch immer das herrschende
Paradigma ablöst, müssen wir uns halt irgendwie durchwursteln.

Erfreulich ist ja schon mal, dass (zumindest in der Psychologie) meistens die exakten p-Werte berichet werden. Müsste man den p-Wert nicht immer vor dem Hindergrund der Stichprobengröße interpretieren? So an und für sich sagt er ja wenig aus...

Die steckt doch implizit drin. Aber es stimmt schon, p < 0,0001
wird oft als Hinweis auf einen bedeutenden Effekt gedeutet,
während so ein kleiner Wert bei sehr großen Stichproben
ohne weiteres auftreten kann, auch bei irrelevanten Effekten.

Mit freundlichen Grüßen

P.

STATISTIK-FORUM.de

Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Re: Artikel die sich kritisch mit Signifikanztests befassen?

Wer ist online?