Datensatz teilweise Normalverteilt, teilweise nicht

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Datensatz teilweise Normalverteilt, teilweise nicht

Beitragvon srhgrb0511 » Fr 14. Jul 2023, 17:06

Hallo Zusammen,

ich arbeite gerade ein meiner Bachelorthesis und habe folgendes Problem:

ich werte Ernährungsdaten der Probanden aus. Jetzt habe ich einen Datensatz, der teilweise Normalverteilt ist und teilweise nicht.
(Bsp: Daten zu Kcal, Kohlenhydrathen, Folsäure, VitaminD, Magnesium sind NV, Daten zu Fett, und Ballaststoffen, Vitamin B12 nicht)
Teilweise sind die Daten n > 30, teilweise n < 30.

Ich wollte zuerst eine Korrelationsanalyse machen, ob die Nährstoffe miteinander korrelieren und dann einen t-Test, um die einzelnen Probandengruppen hinsichtlich ihrer Nährstoffdeckung nochmal zu vergleichen.
Da die NV nicht gegeben ist und ich einige Ausreißer habe, wollte ich den Kendall´s tau-b nehmen. Kann ich den nun für alle Daten nehmen (auch für die, die normalverteilt sind) oder muss ich die nochmal splitten und einzeln schauen, welche Daten NV sind und dafür die Pearson´s Korrelation nehmen und nur für die nicht normalverteilten die Kendall´s Korrelation?

(Gleiches Problem hab ich beim t-test. Kann ich für alle den Mann-Whitney-U Test nehmen, oder muss ich mir die normalverteilten Proben rauspicken, auf Varianzhomogenität prüfen und dann den Welch-Test bzw t-Test nutzen?)

Vielen Dank im Voraus!
srhgrb0511
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 14. Jul 2023, 16:53
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Datensatz teilweise Normalverteilt, teilweise nicht

Beitragvon bele » Do 24. Aug 2023, 16:09

Hallo srhgrb0511,

lass mich bitte zuerst zu Samys Betrag sagen, dass das hier sein zweiter Beitrag ist und er in 100% seiner Beiträge zu der genannten Statistikberatung rät. Ich habe da grundsätzlich nichts gegen (eher im Gegenteil), fände es nur gut, etwaige Interessenkonflikte offen zu legen.

Das Problem, dass ich mit der Unterteilung in normalverteilt und nicht-normalverteilt habe ist, dass Du mit n < 30 eine Nicht-Normalverteilung ganz leicht übersehen kannst und dich dann in falscher Sicherheit wägst. Es gibt auch m. E. keinen Grund zu der Annahme, dass die Aufnahme von Nährstoffen normalverteilt sein sollte. Neben dem Wechsel auf Kendall- oder Spearman-Korrelationen könnte man auch erwägen, die Pearson-Korrelation anders als üblich zu testen. Die Wikipedia beschreibt beispielsweise einen Permutationstest und einen Bootstrapping-Test für die Pearson-Korrelation: https://en.wikipedia.org/wiki/Pearson_c ... #Inference
Dann hättest Du sowohl einen nichtparametrischen Test als auch Pearson's r und die Untersuchung auf einen linearen Zusammenhang.

Persönlich würde ich bei n < 30 entweder grundsätzlich einen nichtparametrischen Test rechnen (Rangsummen oder auch hier Permutationstest) oder mir die jeweiligen Verteilungen individuell als Streudiagramm anzeigen lassen und dann Individualentscheidungen fällen.

Es gibt aber auch Alternativen im Bereich der sogenannten "robusten Tests". Dabei wird dann jeder einzelne Punkt umso weniger gewichtet, je weniger er zu den anderen Werten zu passen scheint. Eine andere Alternative ist der BEST-Test, bei dem neben der Wahrscheinlichen Mittelwertdifferenz auch gleich ein Maß für die Abweichung von Normalität berechnet wird (die Annahme ist, dass die Werte einer t-Verteilung entstammen, deren Freiheitsgrade man schätzen kann, https://www.sumsar.net/best_online/ ).

Um es kurz zu fassen: Den wenigsten Aufwand und den geringsten Einsatz von Hirnschmalz und den wenigsten Ärger mit Reviewern wirst Du haben, wenn Du bekannte nicht-parametrische Auswertungsverfahren einfach durchgehend nutzt. (Einen riesigen Verlust an Power zwischen t-Test und Rangsummentest musst Du nicht wirklich befürchten, denn der t-Test verliert seinen Vorteil, wenn man bei n >30 auf seine Robustheit baut und ihn für nicht-normalverteilte Daten anwendet.)

LG,
Bernhard


PS: Vielleicht macht es auch Sinn, über die Fragestellung in diesem Licht nochmal nachzudenken. Sagen wir, Du hast eine Gruppe von schwangeren Frauen, die alle Folsäure substituieren und eine Gruppe von Alkoholikern, denen Folsäure fehlt. Willst Du dann wirklich in Milligramm wissen, wieviel mehr Folsäure die Schwangeren durchschnittlich haben oder reicht die Aussage, dass Schwangere mehr Folsäure haben als Alkoholiker?
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5782
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

Re: Datensatz teilweise Normalverteilt, teilweise nicht

Beitragvon PonderStibbons » Do 24. Aug 2023, 21:34

bele hat geschrieben:Hallo srhgrb0511,

lass mich bitte zuerst zu Samys Betrag sagen, dass das hier sein zweiter Beitrag ist und er in 100% seiner Beiträge zu der genannten Statistikberatung rät. Ich habe da grundsätzlich nichts gegen (eher im Gegenteil), fände es nur gut, etwaige Interessenkonflikte offen zu legen.

Danke für den Hinweis. Hatte ich überlesen. Inakzeptabel. Fliegt raus.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11269
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2475 mal in 2459 Posts


Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast