STATISTIK-FORUM.de

Begoihn · von **Begoihn** » Di 9. Jan 2018, 15:40

Hallo Community,

ich schreibe gerade meine Dissertation die sich unter anderem mit der Frage beschäftigt, ob die Zeit zwischen dem Beginn der Symptome und der Diagnose (Wartezeit) mit dem Krebsstadium korrelieren. Sprich ob eine lange Wartezeit ein hohes Krebsstadium bei Diagnose begünstigt.

Die Wartezeit ist dabei eine fortlaufende, metrische Variable während das Krebsstadium eine nominale Variable in 4 Gruppen darstellt.
Die Gruppen sind relativ groß, jedoch variieren die Gruppengrößen untereinander (n: 191; 497; 731; 156).
Die Daten sind nicht normalverteilt und es gibt einige Ausreißer ( Schiefe: 2,87 SE ,19 ; Kurtosis: 10,96 SE ,38) .

Nun stelle ich mir die Frage welchen statistischen Test ich bei SPSS nutzen kann.
Aufgrund der fehlenden Normalverteilung dachte ich an einen Kruskal-Wallis Test. Problem hierbei ist die fehlende Möglichkeit der Post-hoc tests. Die müssten meines Wissens manuell vorgenommen mit angepasstem p-Wert (der liegt jedoch bei Kruskal-Wallis schon bei 0,001 sodass das kaum möglich wäre).

Würde alternativ eine ANOVA, Welch-ANOVA, oder Brown-Forsythe trotz fehlender Normalverteilung in Frage kommen?
Mein Statistik-Backup sprach noch von einer Ordinalen-Regression wobei ich mich da null auskenne und das kein Standardverfahren sei. Gibt's dazu Meinungen?

Besten Dank und Viele Grüße im Vorraus
Pato

PonderStibbons · von **PonderStibbons** » Di 9. Jan 2018, 16:05

ob die Zeit zwischen dem Beginn der Symptome und der Diagnose (Wartezeit) mit dem Krebsstadium korrelieren

Welcher Zweck verbindet sich mit dieser Analyse? Gegebenenfalls muss man über Verzerrungen wegen
Selektionseffekten nachdenken.

Die Daten sind nicht normalverteilt

Verblüffend, dass diese völlig irrelevante Angabe so häufig als erstes zur Charakterisierung von Daten genannt wird.
Bei z.B. Varianzanalysen sollen die Werte innerhalb der Gruppen aus Normalverteilungen stammen bzw. es sollen die
Vorhersagefehler (Residuen) aus Normalverteilungen stammen. Und auch das ist nur bei kleinen Stichproben
relevant. n > 1500 ist mehr als ausreichend groß. Interessanter sind hier evtl. die Streuungen zwischen den Gruppen.
Sollten die ungleich sein, wäre das erstmal ein interessantes Ergebnis für sich, würden zudem aber eine entsprechende
Korrektur (Welch, Brown-Forsythe) erfordern.

Mein Statistik-Backup sprach noch von einer Ordinalen-Regression wobei ich mich da null auskenne und das kein Standardverfahren sei. Gibt's dazu Meinungen?

Überflüssig. Es sei denn, es sollen später noch weitere Faktoren zur Vorhersage des Stadiums integriert werden.

Mit freundlichen Grüßen

PonderStibbons

Begoihn · von **Begoihn** » Di 9. Jan 2018, 17:21

Besten Dank für die Rückmeldung,

es geht bei der Studie um Gebärmutterhalskrebs in einem tropischen Land. Da die Zeit bis zur Diagnose teilweise sehr lang ist, würde ich gerne nachweisen dass Frauen die lange warten bis sie zum Arzt gehen, ein höheres Risiko haben mit einem späten Stadium diagnostiziert zu werden um ggf. Interventionen in Richtung Schulung der Bevölkerung etc zu fördern.

Von welchen Selektionseffekten sprechen Sie? Da sind sicher welche vorhanden. Z.b. dass es nur die "guten" der hohen Stadien ins Krankenhaus schaffen und die "schlechten" vorher versterben.

Ist mit Streuung zwischen den Gruppen die Hetero - bzw Homogenität der Varianzen gemeint?
Diesbezüglich habe ich einen nicht parametrischen Levenes-Test gemacht der alpha > 0,5 ergab, ich gehe daher von einer Homogenität der Varianzen aus.

Weitere Faktoren zur Vorhersage des Stadiums will ich vorallem ausschließen um mich geziehlt auf die Wartezeit zu konzentrieren. Das wären z.B. Alter (gruppiert), Wohnort, und HIV-Status. Per Chi-Quadrat-Test habe ich hier keinen Zusammenhang festgestellt.

Heißt das für meine Fragestellung, dass eine ANOVA trotz Ausreißer und fehlender Normalverteilung robust genug ist?
Was würde für bzw. gegen einen Kruskal-Wallis Test sprechen?

Viele Grüße
Pato

PonderStibbons · von **PonderStibbons** » Mi 10. Jan 2018, 10:03

würde ich gerne nachweisen dass Frauen die lange warten bis sie zum Arzt gehen, ein höheres Risiko haben mit einem späten Stadium diagnostiziert zu werden

Mit dem Design hast Du nur die Möglichkeit zu untersuchen, ob Frauen, die zur Diagnose erschienen
sind und ein spätes Stadium haben, davor länger gewartet haben als die erschienenen Frauen ohne Tumor
bzw. in einem früheren Stadium. Über das Kollektiv der wartenden Frauen kannst Du dann allenfalls
begründet spekulieren.

Von welchen Selektionseffekten sprechen Sie? Da sind sicher welche vorhanden.

Ja. Weswegen (s.o.) man die Forschungsfragen und Ergebnisse sehr sorgfältig formulieren muss.

Ist mit Streuung zwischen den Gruppen die Hetero - bzw Homogenität der Varianzen gemeint?

Ja.

Diesbezüglich habe ich einen nicht parametrischen Levenes-Test gemacht der alpha > 0,5 ergab, ich gehe daher von einer Homogenität der Varianzen aus.

Das würde bei der recht großen vorliegenden Stichprobe tatsächlich für sehr ähnliche Standardabweichungen
der Wartezeit sprechen. Oder ist gemeint > 0,05?

Heißt das für meine Fragestellung, dass eine ANOVA trotz Ausreißer und fehlender Normalverteilung robust genug ist?

Wurden denn Ausreißer identifiziert? Was es mit der Normalverteilung auf sich hat, habe ich bereits beschrieben.

Wegen der extremen Schiefe, was typisch wäre für Daten, die auf Zeiten (hier Wartezeiten) beruhen,
stellt sich allerdings die Frage, ob der Mittelwert ein geeignetes Maß für die zentrale Tendenz hier
ist. Wenn in allen Gruppen die Form der Verteilung ähnlich ist, wird man meines Erachtens nicht
viel falsch machen bei einer Mittelwertbetrachtung (und Varianzanalyse), aber sollte die Betrachtung
der Mediane ergänzen.

Mit freundlichen Grüßen

PonderStibbons

Begoihn · von **Begoihn** » Mi 10. Jan 2018, 14:11

Mit dem Design hast Du nur die Möglichkeit zu untersuchen, ob Frauen, die zur Diagnose erschienen sind und ein spätes Stadium haben, davor länger gewartet haben als die erschienenen Frauen ohne Tumor bzw. in einem früheren Stadium. Über das Kollektiv der wartenden Frauen kannst Du dann allenfalls begründet spekulieren.

Danke für die Anmerkung!

Oder ist gemeint > 0,05?

My bad. >0,05 ist richtig. 0,074 um genau zu sein.

Wurden denn Ausreißer identifiziert?

Die gibt es. Ich würde gerne meine Boxplots anhängen aber angeblich habe ich mein Kontingent für Dateinanhänge vollständig ausgenutzt.

stellt sich allerdings die Frage, ob der Mittelwert ein geeignetes Maß für die zentrale Tendenz hier ist.

In der Literatur habe ich gelesen, dass bei Wartezeit Betrachtungen vornehmlich der Median betrachtet werden sollte. Dies könnte ich doch mit einem einem Kruskal-Wallis Test machen. Ich habe gelesen dass man, wenn sich die Form der Boxplots der Verteilung ähneln, auch Schlussfolgerungen über die Unterschiede der Mediane und nicht nur der Ränge machen kann. Ist das so richtig? Außerdem habe ich herausgefunden, dass SPSS die Post-Hoc tests via Dunn Procedure und Bonferroni-Korrektur automatisch macht was mir neu war. Gibt es denn Gründe die gegen einen Kruskal-Wallis Test sprechen und für eine ANOVA oder könnte man sagen, dass ich mit der K-W-Test auf der sicheren Seite bin (wegen der Ausreißer und der Betrachtung des Mediane) ?

Vielen Dank für die wertvolle Hilfe!

Pato

PonderStibbons · von **PonderStibbons** » Mi 10. Jan 2018, 14:20

Ich habe gelesen dass man, wenn sich die Form der Boxplots der Verteilung ähneln, auch Schlussfolgerungen über die Unterschiede der Mediane und nicht nur der Ränge machen kann. Ist das so richtig?

Wenn Du Mediane vergleichen willst, dann nimm den Median-Test. Geht auch für k > 2 Gruppen.

Gibt es denn Gründe die gegen einen Kruskal-Wallis Test sprechen und für eine ANOVA

Es kommt darauf an, was man testen will, ob Mittelwerte, Mediane oder Verteilung der Ränge.

Mit freundlichen Grüßen

PonderStibbons

Begoihn · von **Begoihn** » Mi 10. Jan 2018, 14:22

Hier noch der Boxplot

imagizer.imageshack.us/a/img924/5508/zNT4Ev.png

Begoihn · von **Begoihn** » Mi 10. Jan 2018, 14:42

Gibt es unterschiede bzgl der Teststärke dieser Tests? Ich habe das Gefühl dass der Median-Test in der wissenschaftlichen Literatur (zumindest in der medizinischen) praktisch nicht vorkommt. Mir wurde gesagt der Median-Test sei aufgrund besserer Alternativen praktisch obsolet.

Ist es denn gängige Praxis bei Kruskal-Wallis anhand der Form der Boxplots der einzelnen Gruppen, Aussagen über den Median zu machen?
Das habe ich so bei statistics.leard.com gelesen, war mir so jedoch vorher nicht bekannt.

Zitat: Laerd Statistics (2015). Kruskal-Wallis H test using SPSS Statistics. Statistical tutorials and software guides.

If you have met the assumption of similarly shaped distributions, you are in the fortunate position to determine whether the median score for your groups are different in terms of the dependent variable. We say that you are 'fortunate' because if you had failed this assumption, you would not be able to use the median, which is a well-known measure, to understand the differences between your groups. You could only say whether one or more groups' values was higher or lower than the other group(s) based on mean ranks

PonderStibbons · von **PonderStibbons** » Mi 10. Jan 2018, 15:13

Gibt es unterschiede bzgl der Teststärke dieser Tests? Ich habe das Gefühl dass der Median-Test in der wissenschaftlichen Literatur (zumindest in der medizinischen) praktisch nicht vorkommt. Mir wurde gesagt der Median-Test sei aufgrund besserer Alternativen praktisch obsolet.

Kruskal-Wallis testet keine Mediane, aber vielleicht testet er gerade das was Dich interessiert. ANOVA testet sowieso keine Mediane. Also weiß ich nicht, welches die besseren Alternativen sein sollen, falls (!) man expizit Mediane testen will. Wenn man sich bei n > 1500 dann auch noch wegen der power Gedanken machen muss, dann ist der Effekt, den man sucht, womöglich irrelevant klein.

Ist es denn gängige Praxis bei Kruskal-Wallis anhand der Form der Boxplots der einzelnen Gruppen, Aussagen über den Median zu machen?

Nie erlebt. Aber natürlich kommt es asymptotisch so hin. Nur ist es eben kein expliziter Median-Vergleich.

Mit freundlichen Grüßen

PonderStibbons

bele · von **bele** » Mi 10. Jan 2018, 17:45

Entschuldigt, wenn ich jetzt in eine ganz andere Richtung hier dazustoße. Die Fragestellung lautete doch:

würde ich gerne nachweisen dass Frauen die lange warten bis sie zum Arzt gehen, ein höheres Risiko haben mit einem späten Stadium diagnostiziert zu werden

Das klingt für mich total nicht nach einem Kruskal-Wallis-Test, sondern nach einer Korrelationsrechnung. Spearman-Korrelation mit zugehörigem Test und die Hauptfragestellung ist beantwortet. Das ist deshalb sinnvoll, weil die x-Achse auf der Abbildung mit den Boxplots nicht nur nominales, sondern ordinales Skalenniveau hat. Die vorhandene Information (das Skalenniveau) wird also von einer Spearman-Korrelation viel treffender abgebildet als von einem Kruskall-Wallis-Test.

Wenn man Informationen über das Alter und den HIV-Status hat, dann tut es einem bei >1000 Beobachungen doch in der Seele weh, diese Information einfach zu verwerfen. Eine mehrstufige logistische Regression, die aus Alter, HIV und Wartezeit das Tumorstadium vorhersagt, könnte das leisten. Was auch immer das heißt, dass sie kein Standard sei. Schwarze Magie oder Quantenmechanik ist es auch nicht. Du solltest mal ein wenig darüber lesen´und vielleicht kommst Du zu dem Schluss, dass Du davor gar keine Angst haben musst.
https://stats.idre.ucla.edu/spss/dae/or ... egression/
https://statistics.laerd.com/spss-tutor ... tics-2.php
http://www.norusis.com/pdf/ASPC_v13.pdf

LG,
Bernhard

STATISTIK-FORUM.de

Suche nach dem richtigen statistischen Test

Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Re: Suche nach dem richtigen statistischen Test

Wer ist online?