STATISTIK-FORUM.de

Yuky · von **Yuky** » Mi 23. Nov 2022, 22:24

Einen schönen guten Abend

Ich habe ein kleines Problem in Bezug auf eine Statistische Auswertung für ein Veröffentlichung.

Kurz zur Prämisse meiner Untersuchung:
Ich untersuche das Vorkommen einer bestimmten Krankheit bei einer Tierart.
Hierfür nehme ich aus Institut 1 bestimmte Hunderassen, welche im Zeitraum 2019-2021 diese Ausprägung zeigten (n = 179 | mein "Fälle") und vergleiche sie mit dem Vorkommen von denselben Hunderassen in einem anderen Institut (n = 689 | meine "Kontrollgruppe").
Untersucht werden: Rassen, Geschlecht, Kopfform
All diese drei Untersuchungspunkte werden in Kategorien eingeteilt (1 = Beagle, 2 = Labrador, etc., | 1 = männlich 2 = weiblich | 1 = Form a 2 = Form b, etc.) dementsprechend habe ich ja nur nominale Daten.
Fragestellung ist nun: Haben die Untersuchungspunkte eine Signifikanz in Bezug auf die Krankheit (also auch diesbezüglich auch nominal 1 = ausgeprägt, 2 = nicht ausgeprägt).
Als Auswertungstool hätte ich einen Chi-Quadrat/Fisher's exact test gemacht und bei einem P-Value von > 0,05 einen Post-Hoc-Test nachgezogen.

Wie man oben schon lesen kann, ist die Kontrollgruppe aber wesentlich größer als meine Fallgruppe. Ziemlich genau 3,849x größer.
Nun frage ich mich, wie ich damit umgehen soll um eine wissenschaftlich korrekte, statistische Aussagekraft zur Signifikanz zu bekommen.

1) Die Größe so lassen? -> Hier habe ich die Sorge, dass durch die starke Kontrollgruppe eine "falsche Signifikanz" entsteht.

2) Den Zeitraum der Kontrollgruppe minimieren. Sprich anstatt ebenso 3 Jahre eventuell nur 1 Jahr an Daten zu verwenden.

3) Die Daten aus der Kontrollgruppe durch den Faktor 3,849 zu teilen um im Endeffekt eine kleinere Kontrollgruppe mit einer ähnlichen Verteilung zu bekommen.

Nummer 1 macht mir Sorge, Nummer 2 und 3 fühlt sich etwas nach Zahlenschieberei an und das möchte ich vermeiden.

Von daher meine Frage: Wie gehe ich mein Problem wissenschaftlich korrekt an? Oder gibt es eine andere Möglichkeit diese verschiedengroßen Kontrollgruppen zu vergleichen?

Ich bedanke mich im Vorhinein für euren Input

PonderStibbons · von **PonderStibbons** » Mi 23. Nov 2022, 22:59

Wenn ich es richtig verstehe, dann führst Du eine Serie von Tests durch auf Basis von Kreuztabellen des Typs
"Rasse: Beagle / Schäferhund / Pudel /... " vs. "Institut 1 / Institut 2"?

Das fragt letztlich nicht nach Häufigkeiten, sondern nach relativen Häufigkeiten (Anteilswerten).
Also z.B. "ist der Anteil weiblicher Tiere je nach Ort unterschiedlich".

Sowas wird durch die unterschiedlichen Stichprobengrößen nicht verzerrt.

Allerdings ergibt die Aufteilung in zahlreiche Rassen für eine solche Analyse vermutlich wenig Sinn,
das wird zu kleinteilig.

Mit freundlichen Grüßen

PonderStibbons

Yuky · von **Yuky** » Do 24. Nov 2022, 00:30

Ich untersuche das Vorkommen der Krankheit in Bezug auf die Kriterien.
Die Tiere aus Institut 1 sind die Kranken Tiere, während ich sicher weiß, dass die Tiere aus Institut 2 dieses Krankheitsbild nicht ausgebildet haben "gesunde Tiere".

Ich untersuche damit unter anderem Rasseprädispositionen.
Als Beispiel wäre die Fragestellung: Welche Rassen haben die Krankheit eher/weniger ausgeprägt?
Damit hab ich z.B. 60 Labradore die es ausgeprägt haben, während 68 im anderen Institut vorstellig waren und diese Krankheit nicht zeigten.
Collies zeigten die Ausprägung in den 3 Jahren nur 3x, dafür waren im anderen Institut 17 vorstellig.

Ich habe geschaut, dass ich in jeder Kategorie mindestens 5 Probanden habe (sprich sowohl bei "Krank" als auch bei "Gesund"), damit der Chi-Quadrat-Test so sinnig auszuwerten ist wie nicht.

Aber dann ist der Chi-Quadrat/FIsher's exact test ein statistisch richtige herangehensweise, da sie trotz stark unterschiedlicher Stichprobengröße nicht verzerrt werden?

PonderStibbons · von **PonderStibbons** » Do 24. Nov 2022, 17:50

Ich habe geschaut, dass ich in jeder Kategorie mindestens 5 Probanden habe (sprich sowohl bei "Krank" als auch bei "Gesund"),

Obacht, es geht um die erwartete Anzahl pro Zelle (erwartet unter der Nullhypothese, dass kein Zusammenhang existiert), nicht um die tatsächliche.

Aber dann ist der Chi-Quadrat/FIsher's exact test ein statistisch richtige herangehensweise, da sie trotz stark unterschiedlicher Stichprobengröße nicht verzerrt werden?

Falls Du Kreuztabellen rechnest, wovon ich ausgehe, dann sollte das so sein. Allerdings habe ich Deine Beschreibung nicht so recht verstanden, daher unter Vorbehalt.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Chi² bei verschieden Großen Datenmengen

Chi² bei verschieden Großen Datenmengen

Re: Chi² bei verschieden Großen Datenmengen

Re: Chi² bei verschieden Großen Datenmengen

Re: Chi² bei verschieden Großen Datenmengen

Wer ist online?