STATISTIK-FORUM.de

Hallo,

ich habe Daten einer Studie von n=31 Probanden.
Diese haben einen Test durchgeführt vor und nach einem Treatment.
Ergebnisse sind im Rahmen von 0 - 1,2.

Ein Shapiro-Wilk normality test zeigt, dass die Differenzen der Daten vermutlich unterschiedlich zu einer Normalverteilung sind.
W = 0.90882, p-value = 0.01205

Wenn ich nun die Daten transformiere.
Transformiere ich dann die Ausgangsdaten x und y selbst und führe dann den Shapiro-Wilk auf den Differenzen der transformierten Daten aus?

Also: diff <- log(x) - log(y)
und dann: shapiro.test(diff)

Oder transformiere ich im Grunde die Differenz von x und y. Und teste dann mit Shapiro-Wilk auf Normalverteilung?
also: diff <- log(x-y)
und: shapiro.test(diff)

Vielen Dank!

Warum und wozu solltest Du irgendwas transformieren wollen?

Mit freundlichen Grüßen

PonderStibbons

Ich würde gerne testen ob sich die Ergebnisse von Baseline und Treatment signifikant unterscheiden.
Dazu brauche ich wohl einen paired t-test. Der aber als Voraussetzung hat, dass die Differenzen Normalverteilt sind.
Deshalb will ich die Daten transformieren um die Eigenschaft herzustellen. Nun weiß ich aber nicht genau, wie ich das ganze angehe (siehe die Frage)

Danke und VG

Hi,

- bei N >30 ist die Annahmevoraussetzung von NV nicht mehr haupsächlich relevant (Zentraler Grenzwertsatz).
- der Signifikanzbefund aus einem parametrischen 2-Stichproben T-Test für abhängige Sticproben könnte aber per nichtparametrischem Pendant (Wilcoxon) abgesichert werden.

Gruß
S.

Hm okay,

ich dachte bislang immer dass der Zentrale Grenzwertsatz als Bedingung die Unabhängigkeit hat.

Ja, Wilcoxon dachte ich auch schon, allerdings benutzt jedes Paper in dem Umfeld meiner Arbeit auch parametrische Tests und transformiert die Variablen, weshalb ich daraus schließe dass ich dies wohl auch tun sollte.

Hi,

Umfeld meiner Arbeit auch parametrische Tests und transformiert die Variablen,

- dann musste auch seht konkret benennen um was es fachlich geht
- einfach drauflos mit irgendeiner C- oder R-Programmierung o.a. der Datenmanipulation ist fragwürdig

Gruß
S.

- Gilt denn der Zentrale Grenzwertsatz auch bei abhängigen Variablen? Ich habe versucht das Ganze zu Googlen aber bin nicht wirklich schlauer geworden... :/

Es geht um die Fahrperformanz beim Autofahren im Rahmen des ISO 26022 Lane Change Test.
Probanden fahren auf einer 3 spurigen Strecke und müssen von einer auf die andere Spur wechseln. Währenddessen müssen sie mit einem Tablet Aufgaben erledigen worunter ihre Fahrperformanz leidet.
Beide Fahrten, Baseline (keine Ablenkung mit Tablet) und Treatment (Aufgaben am Tablet) haben dann am Ende einen Performance Wert wie gut sie gefahren sind. Was die Abweichung zu einer Ideallinie ist.

Danke für die Hilfe!

Der t-Test für abhängigen Stichproben ist ein Test der Differenzwerte gegen 0, also de facto der Ein-Stichproben-t-Test.

Mit freundlichen Grüßen

PonderStibbons

Um den Gedanken weiter zu führen:

Da es im Grunde ein Ein-Stichproben-t-Test ist, darf ich die Annahme des zentralen Grenzwertsatzes benutzen.

Passt?

Ja. Nehmen wir an, Deine 31 Differenzen enstammen einer ziemlich schiefen Verteilung, sagen wir einer Beta-Verteilung mit den Parametern 2 und 10. Das ist ziemlich schief, wie Du hier siehst:

Code: Alles auswählen: curve(dbeta(x, 2, 10))

31 Werte aus einer solchen Verteilung lassen sich in R wie folgt ziehen:

Code: Alles auswählen: hist(rbeta(31, 2, 10))

Jetzt ziehen wir 100000 Mal eine solche Stichprobe mit n = 31 und bilden aus diesen Stichproben den Mittelwert. Von diesen Mittelwert machen wir dann ein Histogramm. In R ist das ein Einzeiler:

Code: Alles auswählen: hist(replicate(100000, mean(rbeta(31, 2, 6))), breaks=50)

Mit diesem Histogramm wird dann ganz schnell klar: Der Mittelwert von lauter Stichproben à 31 Stück ist normalverteilt. Deshalb ist hier der zentrale Grenzwertsatz gültig.

Hättest Du anstelle von 31 jeweils nur 3 Stichproben gezogen, wäre der Mittelwert nicht normalverteilt, sondern schief gewesen:

Code: Alles auswählen: hist(replicate(100000, mean(rbeta(3, 2, 6))), breaks=50)

Diese Verteilung ist mit einem t-Test nicht korrekt abzubilden.

Eine andere Darstellung ist die Symmetrie der Boxplots bei verschiedenen n:

Code: Alles auswählen: boxplot(list("n=1"=replicate(10000, mean(rbeta(1, 2, 6))), "n=2"=replicate(10000, mean(rbeta(2, 2, 6))), "n=3"=replicate(10000, mean(rbeta(3, 2, 6))), "n=31"=replicate(10000, mean(rbeta(31, 2, 6))), "n=60"=replicate(10000, mean(rbeta(60, 2, 6)))), main = "Je zehntausend Mittelwerte")

HTH,
Bernhard

STATISTIK-FORUM.de

Transformation bei verbundenem t-Test

Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test

Re: Transformation bei verbundenem t-Test