ich hoffe, mir kann jemand auf die Sprünge helfen. Meine letzten Statistikvorlesungen liegen leider lange zurück und ich habe mich nun mal wieder dem Gebiet der Forschung zugewandt.
Wir wollen einen Screening-Fragebogen an einer größeren Stichprobe validieren und herausfinden, wie spezifisch und wie sensitiv der Fragebogen ist. Die Studie ist bereits an einer kleinen Strichprobe durchgeführt worden und der Fragebogen konnte dabei überzeugen.
Wir haben nun insgesamt vier Gruppen (Gruppe 1 = krank, Gruppe 2-4 = Kontrollen). N variiert recht stark (von 40 in Gruppe 4 zu 120 in Gruppe 1). Der Fragebogen besteht aus 3 Hauptkategorien und 7 Nebenkategorien, diese bestehen jeweils aus 3-5 Fragen. Um eine Kategorie "zu erfüllen", müssen mehrere der Fragen mit "ja" beantwortet werden.
Erste Berechnungen zeigen: Sensitivität und Spezifität liefern gute Werte, das Screeninginstrument unterscheidet gute die Kranken von den Gesunden.
In einem nächsten Schritt wollten wir nun eine logistische Regression, sowie ROC curves durchführen. Bei der logistischen Regression zeigte sich, dass die Modelle "zu signifikant" waren, es ergaben sich extreme odds ratios. Ich habe nachgelesen, dass man das wohl "quasi-perfekt Separation" nennt? In der Studie vor unserer wurde eine "schrittweise binäre logistische Regression" durchgeführt, laut paper gab es dort nicht diese Ergebnisse. Ich sollte aber explizit nicht die schrittweise Regression durchführen. Wie kann man diese Unterschiede der Ergebnisse erklären?
Und kann ich die Ergebnisse denn nun weiter nutzen? Die Überlegung ist nämlich, das Screeninginstrument nun noch etwas zu kürzen. Könnte man dafür z.B. die logistische Regression & ROC curves mit nur vereinzelten Variablen durchführen?
Vielen Dank schon mal im Voraus
Liebe Grüße




