STATISTIK-FORUM.de

pepe45 · von **pepe45** » Mo 18. Feb 2013, 10:55

Hallo,
ich habe das "Glück" mit sehr großen Datensätzen arbeiten zu können. Beispielsweise habe ich für den Vergleich zweier Gruppen (altes Bildmaterial vs. neues Bildmaterial in einer Testinstruktion) ca. 10 000 Datensätze pro Gruppe, die ich aufgrund des Datenniveaus mittels Chi-Quadrat-Verfahren vergleichen will. Meine "Wunschhypothese" ist dabei auch noch, dass sich die Aufgabenbearbeitung eines Tests nicht von der Art des Bildmaterials unterscheidet - die Ergebnisse also relativ gleich sind.
Nun hat man ja bei Chi-Quadrat-Verfahren das Problem, dass bei zu vielen Daten die Signifikanz überschätzt wird. D.h. viele Vergleiche fallen signifikant aus, obwohl die Aufgaben einmal von 94 und einmal von 95 Prozent der Versuchspersonen gelöst werden. Das ist kein bedeutsamer Effekt. Die Effektgröße (Cramers V oder Phi) hilft mir bei derart großen Stichprobenumfängen leider auch nicht wirklich weiter, da sie selbst bei Unterschieden von 10 Prozent (die sehr groß schon sind) gerade mal bei 0,2 oder niedriger ist.
Deshalb folgende Fragen:
1. Wie kann man allgemein mit sehr großen Stichproben umgehen? Ist es zulässig, sich aus der quasi Vollerhebung (für einen bestimmten Zeitraum liegen mir nämlich alle Daten der Population vor) Stichproben mit optimalen Umfang zu ziehen?
2. Gibt es eine ähnliche Überschätzung bei Korrelationen und Rregressionen auch? Eigentlich müssten doch hier die Werte nur genauer werden, oder?

Habe schon viel im Netzt gesucht, aber irgendwie gibt es meistens eher das Problem zu weniger Probanden. Im Studium haben wir das auch nie so wirklich thematisiert.

Wäre sehr dankbar für Hinweise, Vorschläge und Tipps.

Vielen Dank
Susann

PonderStibbons · von **PonderStibbons** » Mo 18. Feb 2013, 12:34

Nun hat man ja bei Chi-Quadrat-Verfahren das Problem, dass bei zu vielen Daten die Signifikanz überschätzt wird. D.h. viele Vergleiche fallen signifikant aus, obwohl die Aufgaben einmal von 94 und einmal von 95 Prozent der Versuchspersonen gelöst werden. Das ist kein bedeutsamer Effekt.

Du vermengst inferenzstatistische Signifikanz und den Alltagsgebrauch von Signifikanz.
Erstere wird nicht überschätzt durch große Datensätze; inferenzstatistische Tests
widmen sich der Frage, ob die Nullhypothese (eine Aussage über die Grundgesamtheit,
aus der die Stichprobendaten stammen) exakt gilt oder nicht.
Inferenzstatistische Signifikanz hat nichts mit Relevanz, Bedeutsamkeit, Größe eines
Effekts (in der Grundgesamtheit) zu tun, nur mit der Frage, ob die Nullhypothese
exakt gilt, oder ob man sie verwerfen kann. Hat man viele Stichproben-Daten,
dann sind die Schätzungen über die Verhältnisse in der Grundgesamtheit recht präzise
und bereits geringe Unterschiede der Prozentsätze lassen den Schluss zu, dass
der Zusammenhang zwischen Bildmaterial und Leistung in der Grundgesamtheit
nicht exakt = 0.000000000000000000000000... beträgt.

Die Effektgröße (Cramers V oder Phi) hilft mir bei derart großen Stichprobenumfängen leider auch nicht wirklich weiter, da sie selbst bei Unterschieden von 10 Prozent (die sehr groß schon sind) gerade mal bei 0,2 oder niedriger ist.

Bei 10.000 Datensätzen hast Du einen extrem geringen Standardfehler der Schätzung
(weswegen Signifikanztests auch recht eigentlich schon überflüssig sind) und
Effektstärkemaße wie Cramers V sind ohne weiteres verwendbar, um die Größe des
Zusammenhangs in der Grundgesamtheit abzuschätzen. 10% Unterschied ist nunmal
nicht sehr groß, dementsprechend bewegt sich Cramers V von 0,2 irgendwo zwischen
kleinem und mittlerem Effekt.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
pepe45

pepe45 · von **pepe45** » Mo 18. Feb 2013, 12:42

Schon mal vielen Dank für deine Antwort.
Aber kommt es nicht bei der angewandten Statistik nicht immer auf die Bedeutsamkeit des Effekts an? Wozu gibt es denn sonst Effektgrößen und optimale Stichprobenumfänge?
Und wenn 100 Prozent der Probanden eine Aufgabe bearbeiten und mit der einen Bildart lösen sie 70 Prozent und mit der anderen 60 Prozent, dann sind das testtheoretisch schon sehr große Unterschiede.
Muss man sich dann damit begüngen, die Aufgabenschwierigkeiten deskriptiv zu betrachten und ein mehr oder weniger plausibles Kriterium für einen bedeutsamen Unterschied festzulegen?

PonderStibbons · von **PonderStibbons** » Mo 18. Feb 2013, 13:12

Aber kommt es nicht bei der angewandten Statistik nicht immer auf die Bedeutsamkeit des Effekts an?

Je nach Kontext wird man "Bedeutsamkeit" unterschiedlich definieren.
Der inferenzstatistische Terminus "Signifikanz" ist leider mißverständlich,
aber immerhin klar definiert.

Wozu gibt es denn sonst Effektgrößen und optimale Stichprobenumfänge?

Unter anderem zur Fallzahlabschätzung bei der Versuchsplanung.

Und wenn 100 Prozent der Probanden eine Aufgabe bearbeiten und mit der einen Bildart lösen sie 70 Prozent und mit der anderen 60 Prozent, dann sind das testtheoretisch schon sehr große Unterschiede.

Wenn 60 versus 70 Prozent aus Deiner Sicht sehr groß ist, dann stelle das
eben begründet so dar. Wobei sich die Sache evtl. etwas relativieren könnte,
wenn es nicht 10.000 unterschiedliche Personen gewesen sein sollten, das
ging aus der Beschreibung nicht hervor.

Mit freundlichen Grüßen

P.

pepe45 · von **pepe45** » Mo 18. Feb 2013, 13:18

Wenn 60 versus 70 Prozent aus Deiner Sicht sehr groß ist, dann stelle das
eben begründet so dar. Wobei sich die Sache evtl. etwas relativieren könnte,
wenn es nicht 10.000 unterschiedliche Personen gewesen sein sollten, das
ging aus der Beschreibung nicht hervor.

Ja, es wurden pro Gruppe 10.000 Vpn (also insgesamt sogar 20.000) untersucht. Da es um die Eignung von Aufgaben für einen Leistungstest geht, ist zum einen 10 % Unterschied schon sehr viel. Und zum anderen sind Aussagen, die nicht nur eine theoretische und deskriptive Begründung für die "Eignung" von Aufgaben beinhalten, sondern sich auch mittels "Zahlen zeigen lassen" erwünscht.
Ist es denn falsch, sich die Stichproben mit dem optimalen Umfang zur inferenzstatistischen Analyse zu ziehen?
Vielen Dank!
Susann

PonderStibbons · von **PonderStibbons** » Mo 18. Feb 2013, 13:58

Ist es denn falsch, sich die Stichproben mit dem optimalen Umfang zur inferenzstatistischen Analyse zu ziehen?

Kann ich so nicht beantworten. Falsch für wen?
Unter welchen Umständen? Zu welchem Zweck?

Falls es um Deine eigene Studie geht, da kannst
Du (überflüssige) Inferenzstatistik betreiben, die
wird Dir Auskunft geben, dass Leistung und Bildform
nicht unabhängig voneinander sind und mehr nicht.

Die Größe des Effekts ist angesichts der großen
Stichprobe ohne weiteres aus der Deskriptivstatistik
ablesbar und interpretierbar.

Mit freundlichen Grüßen

P.

pepe45 · von **pepe45** » Mo 18. Feb 2013, 14:22

Kann ich so nicht beantworten. Falsch für wen?
Unter welchen Umständen? Zu welchem Zweck?

Einfach "falsch" im Sinne des methodischen Vorgehens.
Wir wollen mit der Untersuchung Aussagen über die Eignung verschiedener Aufgabentypen ableiten.

PonderStibbons · von **PonderStibbons** » Mo 18. Feb 2013, 15:27

Wieso sollte es für diesen Zweck sinnvoll sein, kleinere Stichproben
aus einer größeren zu ziehen und damit inferenzstatistische Tests
zu rechnen? Die Eignung oder Nichteignung der Items lässt sich
anhand der mit der Gesamtstichprobe ermittelten Daten bestimmen.

pepe45 · von **pepe45** » Mo 18. Feb 2013, 15:47

Hab mich da ein wenig missverständlich ausgedrückt. Es geht eher um den Nachweis der Äquivalenz von unterschiedlichen Aufgabentypen, da die alten Aufgaben gegen die neuen Aufgaben ersetzt werden sollen ohne dass sich dabei etwas inhaltliches ändert. Die Aufgaben unterscheiden sich nur anhand ihres "Aussehens" - d.h. einmal werden Fotos verwendet und einmal Bilder, die mit einem PC-Programm erstellt wurden.

STATISTIK-FORUM.de

zu große Stichprobe...

zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Re: zu große Stichprobe...

Wer ist online?