STATISTIK-FORUM.de

Student45 · von **Student45** » Do 2. Nov 2023, 14:23

Hallo zusammen,
ich möchte bei der Bestimmung meiner Modellperformance (logistisches Regressionsmodell) den Prozess der Modellselektion berücksichtigen. Mein Vorgehen ist wie folgt:
1. Schritt:
Ich teile meinen Datensatz randomisiert in 5 gleich große subsamples auf und führe an 80% der Daten eine backward selection durch. Anschließend berechne ich für das dabei heraus gekommene logistische Regressionsmodell die inner sample performance (Accuracy).
2.Schritt:
Ich übernehme das Modell und berechne damit die outter sample performance (Accuracy) auf dem ausgelassenen Datensatz (die verbleibenden 20%).
3. Schritt:
Ich berechne die Differenz der inner sample performance und der outter sample performance, sprich ich ziehe von der Accuracy aus Schritt 1 die Accuracy aus Schritt 2 ab. Diese Differenz ist ein Maß für das Overfitting und berücksichtigt gleichzeitig die Modellselektion.

Anschließend führe ich die oben genannten Schritte 5 mal durch, wobei ich jedes mal andere 20% der Daten auslasse. Am Ende erhalte ich 5 von den in Schritt 3 beschriebenen Accuracy-Differenzen und berechne davon den Mittelwert.

Zu guter letzte nehme ich den gesamten Datensatz, wende die backward selection an und schätze ein logistisches Regressionsmodell. Für dieses berechne ich ebenfalls die inner sample performance auf dem gesamten Datensatz. Davon ziehe ich dann den oben genannten Mittelwert ab. Am Ende erhalte ich also die bereinigte Performance des "globalen" Modells. Vorteil hierbei soll sein, dass nicht nur für overfitting korregiert wird, sondern für den gesamten Prozess der Modellfindung.

Diese Vorgehensweise ist angelehnt an eine Bootstrap Methode die ich mal verwendet habe. Allerdings konnte ich exakt diese Vorgehensweise bisher in keinem Lehrbuch finden.
Meine Frage lautet daher, ob es eurerseits Einwände gibt? Verwendet jemand eine ähnliche Methode oder kann mir vielleicht sogar Literatur empfehlen, in der genau diese Methode beschrieben/erwähnt wird?
Ich danke euch im Voraus!

Viele Grüße
Student45

bele · von **bele** » Do 2. Nov 2023, 15:19

Hallo Student45,

sorry, so ein Vorgehen kenne ich nicht. So richtig überzeugend finde ich das auch nicht, was wahrscheinlich daran liegt, dass ich backward elimination für falsch halte. Das ist ein Verfahren für eine Zufallsauswahl an Prädiktoren das bei sehr geringen Unterschieden in den Daten zu völlig unterschiedlichen Ergebnissen kommen kann. Deshalb teile ich Deinen (impliziten) Optimismus nicht, dass bei denen fünf CV-Regressionen schon etwas ähnliches/vergleichbares wie beim Gesamtmodell herauskommen wird aus dem man Rückschlüsse auf das Gesamtmodell oder dessen Fehleinschätzung der Accuracy ziehen sollte. Das kann natürlich schon funktionieren, wenn es sich um eine Schönwettersituation handelt, in der einzelne Prädiktoren eindeutig dazu gehören und andere eindeutig nicht, aber wann hat man das schonmal?

Was im Forum von den wichtisten Angaben am häufigsten fehlt ist die Fallzahl, die Anzahl der Stichproben. Wenn die nicht prohibitiv groß ist, würde ich vorschlagen, Dein Vorgehen nicht als 5fach-Kreuzvalidierung sondern als Leave-One-Out (LOO) durchzuziehen. Dann hast Du einen großen Haufen von Modellen die Deinem endgültigen Modell wahrscheinlich wirklich sehr ähnlich sind (weil sie aus fast den gleichen Daten bestimmt wurden) und kannst die out-of-sample Accuray aus der jeweils einen ausgelassenen Stichprobe schätzen.

Du hast dann zwar immer noch das Problem, dass Du nicht weißt, welches das beste Modell für Deine Daten, welches die richtigen Prädiktoren, sind. Aber wenigstens hast Du die Vorhersagekraft mit wirklich ähnlichen Modellen bestimmt.

Wie gesagt, ich glaube nicht an schrittweise Eliminierung und es ist völlig ok, wenn Du mich da für ideologisch verbohrt hälst.
Viele Grüße,
Bernhard

PonderStibbons · von **PonderStibbons** » Do 2. Nov 2023, 15:43

Student45 hat geschrieben:Hallo zusammen,
ich möchte bei der Bestimmung meiner Modellperformance (logistisches Regressionsmodell) den Prozess der Modellselektion berücksichtigen.

Es wäre nützlich Thema und Fragestellung, geplante Verwendung der Ergebnisse für welchen Zweck, Erhebungsdesign,
Stichprobengröße, Anzahl der Prädiktoren zu beschreiben. Und mit welcher Begründung eine Modellbildung anhand
mechanischer (Rückwärts-)elimination gewählt wurde.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Backward Selection innerhalb der Cross Validation

Backward Selection innerhalb der Cross Validation

Re: Backward Selection innerhalb der Cross Validation

Re: Backward Selection innerhalb der Cross Validation

Wer ist online?