Prüfung auf Baselineunterschiede

Prüfung auf Baselineunterschiede

Beitragvon Frauke22 » Sa 16. Jan 2021, 21:01

Hallo,

zur Überprüfung, ob die Randomisierung erfolgreich war, möchte ich Baselineunterschiede überprüfen. Es sind zwei Treatmentgruppen und ich will prüfen, ob sie sich im Bildungsniveau unterscheiden (2x3 Kreuztabelle).
Die Gesamt-Stichprobe ist N=70, in jeder Treatmentgruppe 35 Personen. Hier die deskriptive Verteilung.

___________________________________________Gruppe A ___Gruppe B

kein Schulabschluss:____________________________0_____________1
Abitur:_________________________________________22___________20
Hochschulstudium:_____________________________17___________15

Da nur eine einzige Person keinen Schulabschluss hat, möchte ich wissen, ob es legitim ist, diese Person aus der Analyse in Hinblick auf die Prüfung auf Baselineunterschiede hinauszunehmen.
Oder wie wäre das korrekte Vorgehen?
Chi-Quadrat darf nicht angewendet werden, da mehr als 80 % der Zellen eine erwartete Häufigkeit von größer 5 aufweisen.
Der exakte Test nach fisher ist auch keine Option.
Ich wäre sehr dankbar für Lösungsvorschläge.
Viele Grüße
Frauke
Frauke22
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 16. Jan 2021, 00:42
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Prüfung auf Baselineunterschiede

Beitragvon PonderStibbons » Sa 16. Jan 2021, 21:30

Chi-Quadrat darf nicht angewendet werden, da mehr als 80 % der Zellen eine erwartete Häufigkeit von größer 5 aufweisen.
Der exakte Test nach fisher ist auch keine Option.

Das sind inferenzstatistische Tests. Die beschäftigen sich mit der Grundgesamtheit, aus der die Daten stammen.
Was aber Dich interessiert ist aber, ob die beiden Stichproben unglücklicherweise deutlich unterschiedlich sind,
obwohl randomisiert wurde, und ob das die Ergebnisse beeinflussen kann. "Statistisch signifikant" heißt
ja nicht wichtig, bedeutend, einflussreich, sondern eben nur, die beiden Grundgesamtheiten haben einen
Unterschied größer als 0,000000000.

Nebenbei, ein "signifikantes" Ergebnis eines inferenzstatistischen Tests wäre hier notwendigerweise
ein Fehler erster Art, da randomisiert wurde, die beiden Grundgesamtheiten sich also qua Definfition gar
nicht unterscheiden. Hingegen ein nicht-signifikantes Ergebnis stellt bei so kleinen Stichproben nicht sicher,
dass die Stichproben ausreichend ähnlich sind (wenig statistische Testpower).

Es gibt meines Wissens nach keine festen Regeln, denen zufolge man "objektiv" entscheiden kann,
dass die Gruppe nicht parallel sind, man ist da mehr auf Augenmaß angewiesen. Soweit ersichtlich,
fällt hier aber nur "kein Schulabschluss" heraus. Da dies 3 Bildungsgrade unter den beiden anderen Gruppen
liegt, könnte man vielleicht argumentieren, dass es sich um einen im Kontext der Umntersuchung
ungewöhnlichen Fall handelt. Das war allerdings schon vor der Randomisierung so. Vielleicht formulierst
Du die Einschluss-/Ausschlusskriterien um, oder Du lässt den 1 Fall einfach drin und machst nach den
Datenanalysen dieselben Analysen zur Kontrolle nochmal, aber ohne den 1 Fall.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 9755
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 37
Danke bekommen: 2071 mal in 2058 Posts

Re: Prüfung auf Baselineunterschiede

Beitragvon Frauke22 » Sa 16. Jan 2021, 22:01

Danke PonderStibbonds,

ich danke dir sehr für die soweit ich das beurteilen kann ;-) fundierte und differenzierte Antwort. Oje. Ich hatte auf eine einfache Lösung gehofft. Bei uns an der Uni ist das Standard-Vorgehen bei experimentellen Untersuchungen die Randomisierung durch Anwendung von Chi-Quadrat-Tests für nominale Variablen und anhand von T-Tests für metrische Variablen nachzuweisen.

„Das sind inferenzstatistische Tests. Die beschäftigen sich mit der Grundngesamtheit, aus der die Daten stammen.
Was aber Dich interessiert ist aber, ob die beiden Stichproben unglücklicherweise deutlich unterschiedlich sind,
obwohl randomisiert wurde, und ob das die Ergebnisse beeinflussen kann.“

Ja.

„Hingegen ein nicht-signifikantes Ergebnis stellt bei so kleinen Stichproben nicht sicher,dass die Stichproben ausreichen ähnlich sind (wenig statistische Testpower).“

Das leuchtet mir ein.

Eigentlich ist doch anhand der Daten intuitiv eine Gleichverteilung der Bildungsgrade gegeben? Ich bin gerade etwas ratlos.
Ich tendiere jetzt zu dieser Lösung:
Bei Andy Field: Discogering Statistics: Using SPSS (2017), S. 849 stehen
als mögliche Lösungen
A) collapse the data across one of the variables (preferely the one you least expect to have an effect)
B) collapse levels of one of the variables

"You can also collapse categories within a variable. So, if you had a variable of "season" relating to spring, summer, autumn, winter, and you had very few observations in winter, you could consider reducing the variable to three catagories for which it makes theoretical sense."

Ich präferiere jetzt die letzte Variante (ich integriere die eine Person mit Realschulabschluss mit in die Kategorie Abitur, bzw. ziehe die Bildungsgrade Realschlussabschluss und Abitur zu einer Variablenkategorie zusammen.Dann hätte ich meine erfolgreiche Randomisierung nachgewiesen :-).
Ich würde deine Einschätzung dazu sehr schätzen.

Viele Grüße
Frauke
Frauke22
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 16. Jan 2021, 00:42
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Prüfung auf Baselineunterschiede

Beitragvon PonderStibbons » So 17. Jan 2021, 00:07

ich danke dir sehr für die soweit ich das beurteilen kann ;-) fundierte und differenzierte Antwort. Oje. Ich hatte auf eine einfache Lösung gehofft. Bei uns an der Uni ist das Standard-Vorgehen bei experimentellen Untersuchungen die Randomisierung durch Anwendung von Chi-Quadrat-Tests für nominale Variablen und anhand von T-Tests für metrische Variablen nachzuweisen.

Wie gesagt, das ist Unfug. Es befasst sich nicht mit dem, was eigentlich interessiert (Ähnlichkeit der Stichproben,
nicht Ungleichheit der Grundgesamtheiten) und die Ergebnisse stehen bei einer vorangegangenen Randomisierung von
vornherein fest (alles "nichtsignifikante" Ergebnisse, bis auf 5% falsch-positive Ergebnisse).
Eigentlich ist doch anhand der Daten intuitiv eine Gleichverteilung der Bildungsgrade gegeben?

Sieht für mich so aus.
Ich präferiere jetzt die letzte Variante (ich integriere die eine Person mit Realschulabschluss mit in die Kategorie Abitur,

Ach so, Realschule. Da stand ohne Abschluss.
Dann hätte ich meine erfolgreiche Randomisierung nachgewiesen.

Ich weiß leider nicht, was das soll. Ist Bildung ein Prädiktor? Wenn nicht, dann hat das mit Fields
Diskussion nichts zu tun. Dass es hinsichtlich Realschulabschluss eine Imbalance gibt, war unvermeidlich,
weil nur 1 Person diesen Abschluss hat. Die Gruppen sind sehr parallel. Es geht um die Frage,
kann die eine Person plausiblerweise die Analyse-Ergebnisse des Datensatzes (n=75) verzerren?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 9755
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 37
Danke bekommen: 2071 mal in 2058 Posts

Re: Prüfung auf Baselineunterschiede

Beitragvon bele » So 17. Jan 2021, 12:20

Hallo Frauke,

PonderStibbons hat ja ausführlich erklärt, dass das Vorhaben an sich nicht sinnvoll ist. Wenn Deine Professoren das als Ritual oder als Qualitätssicherungsmaßnahme betreiben wollen, wirst Du es Ihnen nicht ausreden. Das folgende steht also nicht im Widerspruch zu PonderStibbons Aussagen.

Frauke22 hat geschrieben:Der exakte Test nach fisher ist auch keine Option.


Warum? Weil Deine Hochschule Dich an unbezahlbare Software gewöhnt hat, die den Fisher Test für mehr als 2x2 Felder nur rechnet, wenn man ein kostenpflichtiges Erweiterungspaket kauft?

Wenn man Dir stattdessen beigebracht hätte, Deine Statistiken in bezahlbarer Software wie R zu rechnen wärest Du auch nach Abschluss des Studiums und Ablauf der Studentenlizenz in der Lage, sowas weiter selbst zu rechnen. Hier eine Session in R:

Code: Alles auswählen
> bildung <- matrix(c(0, 22, 17, 1, 20, 15), nrow = 3)
> print(bildung)
     [,1] [,2]
[1,]    0    1
[2,]   22   20
[3,]   17   15
> fisher.exact(bildung)
Fehler in exact2x2(x = bildung) : table must be 2 by 2
> fisher.test(bildung)

   Fisher's Exact Test for Count Data

data:  bildung
p-value = 0.8124
alternative hypothesis: two.sided


Vielleicht darfst Du das ja verwenden.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4503
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 10
Danke bekommen: 989 mal in 978 Posts

Re: Prüfung auf Baselineunterschiede

Beitragvon PonderStibbons » So 17. Jan 2021, 13:55

bele hat geschrieben:Wenn Deine Professoren das als Ritual oder als Qualitätssicherungsmaßnahme betreiben wollen, wirst Du es Ihnen nicht ausreden.

Ack, vermutlich ist es zeitsparender für die OP, einfach einen sinnfreien p-Wert anzugeben und dann hat die liebe Seele Ruh'.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 9755
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 37
Danke bekommen: 2071 mal in 2058 Posts

Re: Prüfung auf Baselineunterschiede

Beitragvon bele » So 17. Jan 2021, 14:07

Ja, aber Frauke soll ja nicht nur für die Schule, sondern den auch fürs Leben Statistik lernen.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4503
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 10
Danke bekommen: 989 mal in 978 Posts


Zurück zu Kreuztabellen & Chi²

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 0 Gäste