Hallo,
ich habe das "Glück" mit sehr großen Datensätzen arbeiten zu können. Beispielsweise habe ich für den Vergleich zweier Gruppen (altes Bildmaterial vs. neues Bildmaterial in einer Testinstruktion) ca. 10 000 Datensätze pro Gruppe, die ich aufgrund des Datenniveaus mittels Chi-Quadrat-Verfahren vergleichen will. Meine "Wunschhypothese" ist dabei auch noch, dass sich die Aufgabenbearbeitung eines Tests nicht von der Art des Bildmaterials unterscheidet - die Ergebnisse also relativ gleich sind.
Nun hat man ja bei Chi-Quadrat-Verfahren das Problem, dass bei zu vielen Daten die Signifikanz überschätzt wird. D.h. viele Vergleiche fallen signifikant aus, obwohl die Aufgaben einmal von 94 und einmal von 95 Prozent der Versuchspersonen gelöst werden. Das ist kein bedeutsamer Effekt. Die Effektgröße (Cramers V oder Phi) hilft mir bei derart großen Stichprobenumfängen leider auch nicht wirklich weiter, da sie selbst bei Unterschieden von 10 Prozent (die sehr groß schon sind) gerade mal bei 0,2 oder niedriger ist.
Deshalb folgende Fragen:
1. Wie kann man allgemein mit sehr großen Stichproben umgehen? Ist es zulässig, sich aus der quasi Vollerhebung (für einen bestimmten Zeitraum liegen mir nämlich alle Daten der Population vor) Stichproben mit optimalen Umfang zu ziehen?
2. Gibt es eine ähnliche Überschätzung bei Korrelationen und Rregressionen auch? Eigentlich müssten doch hier die Werte nur genauer werden, oder?
Habe schon viel im Netzt gesucht, aber irgendwie gibt es meistens eher das Problem zu weniger Probanden. Im Studium haben wir das auch nie so wirklich thematisiert.
Wäre sehr dankbar für Hinweise, Vorschläge und Tipps.
Vielen Dank
Susann