Variablen-Auswahl

Alle Verfahren der Regressionanalyse.

Variablen-Auswahl

Beitragvon Lukas123 » Fr 28. Okt 2016, 11:33

Guten Tag,

ich werte momentan Daten einer retrospektiven Analyse aus. Es gibt 2 Gruppen mit insgesamt 521 Patienten, welche in unterschiedlichen Abständen operiert wurden und ich möchte Prädiktoren für die In-Hospital-Mortalität ausfindig machen. Es stehen ungefähr 60 präopertive Variablen zur Auswahl, welche ich ungern alle in die logistische Regressionsanalyse reinpacken möchte. Ich nutze SPSS Version 23.

Nun komme ich nicht ganz unvorbereitet: ich habe die letzten 2 vollen Tage damit zugetragen jedes Youtube-Video zu Regressionsanalysen anzuschauen, aber was mir immernoch nicht ganz klar wird:

- wie wähle ich (statistisch, nicht nach klinischer Relevanz) meine Variablen aus?

Ich bislang alle klinisch relevant erscheinenden Variablen mittels bivariater Korrelation mit der Mortalität getestet. Bei hoher Signifikanz (p<0,05) habe ich die Variable ausgewählt und nun einzeln der logistischten Regression zugeführt.
Bsp: Niereninsuffizienz korrelliert mit Mortalität -> logistische Regression
Und nur wenn da jetzt signifikante Odds-Ratios rauskommen, sollte ich die Variable in der multivariaten logistischen Regression verwenden?

Eine weiter Frage: bei kategorialen Variablen in der log. Reg.: Bsp: Niereninsuffizienz (Antworten: Nein/Stadium1/Stadium2 ...bis 5 jeweils mit 0, 1, 2, ... 5 codiert)
- wenn ich diese einfüge und bei SPSS unter "kategoriale Variablen" anwähle, welchen Wert setze ich als Referenz?

Ich würde mich wirklich sehr über Antworten freuen!

Viele Grüße Lukas
Lukas123
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 28. Okt 2016, 11:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Variablen-Auswahl

Beitragvon PonderStibbons » Fr 28. Okt 2016, 12:39

- wie wähle ich (statistisch, nicht nach klinischer Relevanz) meine Variablen aus?

Erstmal wählst Du nach klinischer Relevanz, Vorwissen, Literaturlage und Erkennsnitinteresse aus.
Ich weiß nicht, wie hoch die Mortalitätsrate ist, z.B. 10% also um die 60 Fälle? "statistisch" einen
Variablensatz von 60 Prädiktoren durchtesten zu wollen, verspricht keine Aussicht auf stabile Ergebnisse.

Wie lautet denn die Forschungsfrage und das konkrete Studienziel?

Ich bislang alle klinisch relevant erscheinenden Variablen mittels bivariater Korrelation mit der Mortalität getestet. Bei hoher Signifikanz (p<0,05) habe ich die Variable ausgewählt und nun einzeln der logistischten Regression zugeführt.

Das ist kein großer Unterschied zu dem Vorgehen, mehere Dutzend Variablen in die
Regressionsgleichung zu werfen um zu schauen, was dabei herauskommt. Es verschleiert
lediglich, dass bereits zig-Mal getestet wurde, bevor der nächste Analyseschritt in Angriff
genommen wurde.

- wenn ich diese einfüge und bei SPSS unter "kategoriale Variablen" anwähle, welchen Wert setze ich als Referenz?

Nach sachlichen Gesichtspunkten bzw. nach Erkennsnisinteresse.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11256
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2471 mal in 2455 Posts

Re: Variablen-Auswahl

Beitragvon Lukas123 » Fr 28. Okt 2016, 14:34

Hallo und vielen Dank für deine Antworten.

Erstmal wählst Du nach klinischer Relevanz, Vorwissen, Literaturlage und Erkennsnitinteresse aus.


Das habe ich gemacht, u.a. mit Hilfe ähnlicher Studien.

Ich weiß nicht, wie hoch die Mortalitätsrate ist, z.B. 10% also um die 60 Fälle?


Von 521 operierten Patienten sind 6,5% (n=34) postoperativ verstorben.

Wie lautet denn die Forschungsfrage und das konkrete Studienziel?


Ich untersuche das Timing einer Koronararterienbypass-Operation bei Patienten mit akutem Myokardinfarkt. Die Patienten wurden anhand des Zeitintervalls zwischen Symptombeginn und Operation in 2 Gruppen ("sofort operiert" und "verzögert operiert") eingeteilt. Die Frage ist ob es sinnvoll ist gewisse Patienten im akuten Myokardinfarkt vorerst mittels Überbrückungstherapie zu behandeln um zu einem günstigeren Zeitpunkt zu operieren. Primäre Endpunkte sollen in-hospital Mortalität und Langzeitüberleben sein.

Das ist kein großer Unterschied zu dem Vorgehen, mehere Dutzend Variablen in die
Regressionsgleichung zu werfen um zu schauen, was dabei herauskommt.


Interagieren die einzelnen Variablen in der Regressionsgleichung nicht stark miteinander? Ich dachte, wenn ich alle auf einmal reinschmeisse, kommt es zu "falschen" Ergebnissen. Ich habe dann nur Variablen mit einer Signifikanz von p<0,05 gewählt.
In einer ähnlichen Studie heisst es: "von 30 präopertiven Variablen wurde diejenigen welche einen univariablen Wert von p<0,25 (........) und diejenigen welche als klinisch relevant erachten wurden (....) durch ein logistisches Regressionsmodell mit Schritt-für-Schritt Selektion festgestellt..."

Ich schätze ich habe die Funktion der Referenz-Variable nicht verstanden.
Bsp:
Niereninsuffizienz Nein, Stadium 1-5, was wird typischerweise als Referenz gewählt?
Lukas123
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 28. Okt 2016, 11:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Variablen-Auswahl

Beitragvon PonderStibbons » Fr 28. Okt 2016, 15:06

Erstmal wählst Du nach klinischer Relevanz, Vorwissen, Literaturlage und Erkennsnitinteresse aus.

Das habe ich gemacht, u.a. mit Hilfe ähnlicher Studien.

Dann ist es etwas überraschend, wenn 60 Kandidatenvariablen überbleiben.

Von 521 operierten Patienten sind 6,5% (n=34) postoperativ verstorben.

Das schränkt die Möglichkeiten einer logistischen Regression drastisch ein.
Da kann man in einer Analyse allenfalls 2 bis 3 Prädktoren berücksichtigen,
andernfalls hat man ein überangepasstes Modell.
Ich untersuche das Timing einer Koronararterienbypass-Operation bei Patienten mit akutem Myokardinfarkt. Die Patienten wurden anhand des Zeitintervalls zwischen Symptombeginn und Operation in 2 Gruppen ("sofort operiert" und "verzögert operiert") eingeteilt. Die Frage ist ob es sinnvoll ist gewisse Patienten im akuten Myokardinfarkt vorerst mittels Überbrückungstherapie zu
behandeln um zu einem günstigeren Zeitpunkt zu operieren.

Dann hast Du also 2 Gruppen, die Du vergleichst. Wie werden die Patienten den
beiden Gruppen zugeordnet? Und wozu dienen die anderen 60 Merkmale, das
kommt in der Beschreibung des Themas und Zieles nicht vor?

Interagieren die einzelnen Variablen in der Regressionsgleichung nicht stark miteinander?
Ich dachte, wenn ich alle auf einmal reinschmeisse, kommt es zu "falschen" Ergebnissen.

Kann ich nicht beruteilen, weil ich das Studienziel in Hinsicht auf die zusätzlichen
Prädiktoren nicht kenne (siehe oben). Bis dato sehe ich nur, dass 2 Vorgehensweisen
verglichen werden sollen.

n einer ähnlichen Studie heisst es: "von 30 präopertiven Variablen wurde diejenigen welche einen univariablen Wert von p<0,25 (........) und diejenigen welche als klinisch relevant erachten wurden (....) durch ein logistisches Regressionsmodell mit Schritt-für-Schritt Selektion festgestellt..."

Ja, sowas liest man bisweilen. Ist aber im Zeifel Murks, wenn man es nicht kreuzvalidiert.
Die p-Werte der Regressionsanalyse sind jedenfalls falsch und verzerrt, weil die
vorherige Variablenauswahl (also auch das Ausnutzen des Zufalls) nicht
berücksichtigt werden kann.

Wenn es bereits diese ähnliche Studie gibt, könntest Du aber doch deren Ergebnisse
validieren.

Niereninsuffizienz Nein, Stadium 1-5, was wird typischerweise als Referenz gewählt?

Woher soll denn ich das wissen, ich bin kein Nierenspezialist. Am simpelsten
erscheinen "nein" oder die schwerste Kategorie. Oder man kann auch noch
andere Kontrastarten wählen.

Allerdings ist bei gerade mal n=34 Fällen die Analyse bereits mit diesem einen
Merkmal womöglich an ihrerGrenze hinaus. Mal zur Illustration, in einer
Kreuztabelle (Schweregrad x Tod ja/nein) würde man die 34 Todesfälle auf
6 Stadien verteilen, sofern alle 6 Stadien in der Stichprobe vorkommen, d.h.
rund 5 Todesfälle pro Stadium im Schnitt. Nimmt man weitere Merkmale hinzu,
wie zum Beispiel Gruppenzugehörigkeit, wird es noch kleinteiliger.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11256
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2471 mal in 2455 Posts

Re: Variablen-Auswahl

Beitragvon bele » Fr 28. Okt 2016, 17:54

PonderStibbons hat geschrieben:Dann hast Du also 2 Gruppen, die Du vergleichst. Wie werden die Patienten den
beiden Gruppen zugeordnet? Und wozu dienen die anderen 60 Merkmale, das
kommt in der Beschreibung des Themas und Zieles nicht vor?

Ich vermute, dass er für die Störeinflüsse der vielen anderen Variablen eine Korrektur einführen möchte, oder wie es im Forum gerne heißt, "sie herausrechnen". Wahrscheinlich handelt es sich nicht um ein randomisiertes Experiment sondern um eine rückblickende Betrachtung von Patientenakten, was im Zweifel heißt, dass keiner mehr so genau sagen kann, warum die einen gleich und die anderen später operiert wurden. Wenn nicht randomisiert worden ist, können in den anderen Eigenschaften der Patienten natürlich Gründe für systematische Verzerrungen versteckt sein.

Niereninsuffizienz Nein, Stadium 1-5, was wird typischerweise als Referenz gewählt?

Wenn es wirklich nur darum geht, die Einfluss der Niereninsuffizienz auf die Sterblichkeit "herauszurechnen", bzw. deren Einfluss auf die Sterblichkeit möglichst zu berücksichtigen, dann ist es egal, welche Stufe Du als Referenz wählst.

Das Problem der erfreulich geringen Mortalität wird dadurch aber nicht berührt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

Re: Variablen-Auswahl

Beitragvon Lukas123 » Fr 28. Okt 2016, 18:28

Ok ich bin an das Forum wohl genauso halbwissend wie an die logistische Regressionsanalyse selbst herangegangen.

Also wie bereits erwähnt:
Es handelt sich um eine retrospektive, monozentrische Datenanalyse von 521 Patienten mit akutem Myokardinfarkt, welche operativ in der Kardiochirurgie versorgt worden sind. Die Patienten wurden in 2 Gruppen aufgeteilt: OP innerhalb von 48 Stunden (n=200) => Gruppe IT(Immediate Therapy) und >48 Stunden bis 15 Tage (n=321) => Gruppe DT(Delayed Therapy). Primäre Endpunkte: in-hospital Mortalität (HM) und Langzeitüberleben (Follow-Up).
Diese Gruppen habe ich hinsichtlich prä-, peri- und postoperativer Unterschiede verglichen (metrische Variablen t-Test, wenn normalverteilt, ansonsten U-Test / Chi-Quadrat-Test bei kategorialen Variablen).

Nun haben ähnliche Studien, die das OP-Timing untersucht haben, Prädiktoren für die HM ausfindig machen wollen. Das gleiche wollte ich auch tun, allerdings weiss ich nicht ob die folgenden Schritte sinnvoll waren:
1) Auswahl klinisch relevanter Variablen
2) einzelne bivariate Korrelation jeder Variable mit HM
3) Auswahl der Variablen, welche mit der HM signifikant korrelieren
4) logistische Regression mit Methode "Vorwärts: bedingt"

Ist das der richtige Weg für dieses Studiendesign?
Kann ich sagen, dass die Gruppenzugehörigkeit keinen signifikanten Einfluss auf die HM hat, wenn es als solches von SPSS bei der o.g. Vorgehensweise ausgespuckt wird?
Lukas123
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Fr 28. Okt 2016, 11:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Variablen-Auswahl

Beitragvon PonderStibbons » Fr 28. Okt 2016, 19:20

(metrische Variablen t-Test, wenn normalverteilt,

Nur NB, wer verbreitet 2016 immer noch den Unsinn, dass t-Tests eine normalerteilte
abhängige Variable erfordern? Die Idee kommt hier erstaunlich häufig vor.
Nun haben ähnliche Studien, die das OP-Timing untersucht haben, Prädiktoren für die HM ausfindig machen wollen. Das gleiche wollte ich auch tun,

Und fängst sozusagen wieder bei 0 an?
allerdings weiss ich nicht ob die folgenden Schritte sinnvoll waren:

Nur Schritt 1, aber 60 klinisch relevante Variablen kann ich kaum glauben,
zumal es eine Vorstudie gibt. Und eine mechnische Variablenselektion
durch SPSS wie "vorwärts bedingt" produziert vollends überangepasste,
nicht generaliserbare und damit sinnlose Modelle.

Ohne das zynisch zu meinen: wenn das eine dieser Doktorarbeiten
bei methodisch unausgebildeten Betreuern ist, deren Ergebnisse ohnedies
nicht wichtig sind, kannst Du das wohl so machen, immerhin hast Du
Dich schon ordentlich reingeschafft.

Anhand er Vorstudie, die Du erwähntest, kommt man sogar noch zu dem
ernüchternden Eindruck, dass die von Dir skizzierte Vorgehensweise,
deren Untauglicheit eigentlich schon vor Jahrzehnten gründlich diskutiert
wurde, es nach wie vor in Fachpublikationen zu schaffen scheint.

Kann ich sagen, dass die Gruppenzugehörigkeit keinen signifikanten Einfluss auf die HM hat, wenn es als solches von SPSS bei der o.g. Vorgehensweise ausgespuckt wird?

Das kannst Du sagen, aber es ist weitgehend bedeutungslos, weil die statistische
Trennschärfe (power) bei n=34 viel zu gering ist. Und es müssten ja auch noch die
Wechselwirkungen zwischen Methode und Ko-Faktoren in die Analyse.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11256
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2471 mal in 2455 Posts

Re: Variablen-Auswahl

Beitragvon bele » Fr 28. Okt 2016, 22:04

PonderStibbons hat geschrieben:Ohne das zynisch zu meinen: wenn das eine dieser Doktorarbeiten bei methodisch unausgebildeten Betreuern ist, deren Ergebnisse ohnedies nicht wichtig sind, kannst Du das wohl so machen, immerhin hast Du Dich schon ordentlich reingeschafft.


Ich weiß, dass medizinische Doktorarbeiten berechtigt belächelt werden, aber ganz so einfach ist es dann doch nicht. In den Fakultäten, die ich kennen gelernt habe, war es schon so, dass nicht der Betreuer allein über die Arbeit entscheidet, sondern mindestens ein weiterer Beurteiler und Prüfer hinzu gezogen wird, der in der Regel nicht aus der eigenen Klinik stammt. Oft ist es so, dass die Arbeit von einem Patientenversorger vergeben, die Verteidigung und Benotung aber gleichberechtigt mit einem Wissenschaftler (Physiologe, Anatom, Biochemiker, Psychologe, ...) erfolgt. Die können mitunter richtig Ahnung von Wissenschaft haben.

Ich sehe das Bild auch nicht so schwarz:

@Lukas: Die Medizin ist nicht nur Wissenschaft, sie ist auch Kunst. Patienten haben ein Anrecht, lege artis, d. h. nach den Regeln der Kunst behandelt zu werden. Derzeit geistert der Ungeist der EBM durch die Medizin, der uns glauben machen will, dass die Medizin durch Studien weitgehend zu verwissenschaftlichen sei. Glauben muss man das nicht. Zur Kunst in der Medizin gehört, dass an unendlich vielen Stellen Entscheidungen gefällt werden müssen, ohne dass es ausreichend wissenschaftliche Fundierung gäbe. Dein Datensatz mag nicht zu einem ehrlichen p<0,05 führen, aber wenn er mehr Wissen enthält als in signifikanten Studien publiziert ist, dann ist dieses Wissen wertvoll, selbst wenn es nicht signifikant ist. Es ist für Deinen Abschluss aber auch für Patienten, deren Ärzte entscheiden müssen, wann sie operieren, wichtig, dass Du brauchbare Information aus Deinem Datensatz heraus holst. Es ist genauso wichtig, dass Du nicht so tust, als ob Du irgendwas bewiesen hättest.

Der gute alte Fallbericht wird im Zuge der derzeitigen Ideologie gering geschätzt, aber ohne ihn kommt die Medizin nicht aus. Der Fallbericht mit n = 1 führt nie zu einem signifikanten Ergebnis und kann doch wertvoll für Entscheidungen sein.

In diesem Sinne solltest Du berichten, dass es nicht möglich ist, bei 34 positiven Fällen die Bedeutung von 60 Parametern (z. T. ordinal) durch ein lineares Modell wie die logistische Regression erschöpfend zu entscheiden. Anschließend versuchst Du an Information zu gewinnen, was an Information drin steckt. Du rechnest also einen einfachen Paarvergleich: früh operierte versus spät operierte, wer ist seltener im Krankenhaus gestorben. Dann suchst Du Dir eine Handvoll von Prädiktoren aus dem Lehrbuch und der Vorstudie aus, und rechnest eine multiple Regression und anschließend rechnest Du auch noch die Schrittweise Regression. Jede einzelne dieser Rechnungen wird kein abschließend beweisendes Ergebnis erbringen aber in der Gesamtheit und in der Gesamtschau mit anderen Studien wird es Ärzten in der Zukunft helfen, in der Anwendung ihrer Kunst ein bisschen weniger im Trüben zu fischen.

Berichte die Ergebnisse der schrittweisen Regression so wie einen case report: In unseren Patienten in unserer Klinik sieht es so aus, als sei folgendes von Bedeutung. Ob das stimmt, muss weitere Forschung, müssen die Gesamtschau vieler Studien oder eine multizentrische Studie zeigen.

Folgender Geist sollte durch Deine Conclusio ziehen: Wissenschaftlichkeit definiert sich nicht durch ein p < 0,05.

Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

Re: Variablen-Auswahl

Beitragvon PonderStibbons » Fr 28. Okt 2016, 22:51

Oft ist es so, dass die Arbeit von einem Patientenversorger vergeben, die Verteidigung und Benotung aber gleichberechtigt mit einem Wissenschaftler (Physiologe, Anatom, Biochemiker, Psychologe, ...) erfolgt. Die können mitunter richtig Ahnung von Wissenschaft haben.

Dass die mit einer Ablehnung dazwischengrätschen, dürfte eher selten sein.
Gelinde gesagt.

Folgender Geist sollte durch Deine Conclusio ziehen: Wissenschaftlichkeit definiert sich nicht durch ein p < 0,05.

In absehbarer Zeit regiert die Bayes-Statistik. Schwer und nur mit Kenntnis
durchzuführen, aber die Ergebnisse sind geradeheraus zu interpretieren.
Bei dem herrschenden Signifikanztest-Schwachsinn ist es genau umgekehrt.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11256
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2471 mal in 2455 Posts

Re: Variablen-Auswahl

Beitragvon bele » Fr 28. Okt 2016, 23:26

Lieber PonderStibbons,

PonderStibbons hat geschrieben:Dass die mit einer Ablehnung dazwischengrätschen, dürfte eher selten sein.

Richtig. Aber die Benotung spielt schon auch eine Rolle.

In absehbarer Zeit regiert die Bayes-Statistik. Schwer und nur mit Kenntnis durchzuführen, aber die Ergebnisse sind geradeheraus zu interpretieren. Bei dem herrschenden Signifikanztest-Schwachsinn ist es genau umgekehrt.

Ich lese Deinen Optimismus mit Freude. Ich hoffe aber auch, dass es mit Weiterentwicklung der Werkzeuge noch einfacher wird.

Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 5 Gäste