STATISTIK-FORUM.de

Nooomi · von **Nooomi** » Di 21. Jun 2022, 08:44

Hallo zusammen

Ich habe ein relativ kleines Sample von 26 Kantonen und eine dichotome abhängige Variable (ja/Nein). Zudem habe ich 7 unabhängige Variablen, deren Einfluss ich irgendwie auf die abhängige Variable messen möchte.

-> Eine lineare Regression kommt ja aufgrund der dichotomen abhängigen Variablen nicht in Frage

Eine logistische Regression jedoch schon. Bei einem kleinen Sample sollte man ja pro unabhängige Variable mind. 10 Observationen haben. In meinem Falle könnte ich also höchstens 2 unabhängige Variablen in einer logistischen Regression untersuchen.

Welches Vorgehen ist hier sinnvoll: Ausprobieren aller möglichen Zweierkombinationen der Variablen? Oder "Rausfiltern" der unsignifikanten Variablen über eine multinomiale logistische Regression, wo ich also zuerst alle Variablen nehme und jene nach und nach rausfiltere, welche keinen signifikanten Einfluss habe. Jedoch frage ich mich, ob letztere Variante überhaupt sinnvoll ist aufgrund des kleinen Sample-Sizes.

-> kann mir jemand ein ganz anderes Modell empfehlen, welches hier sinnvoll wäre?

Danke für jegliche Hinweise bezüglich des besten Vorgehens?

PonderStibbons · von **PonderStibbons** » Di 21. Jun 2022, 08:57

Eine logistische Regression jedoch schon. Bei einem kleinen Sample sollte man ja pro unabhängige Variable mind. 10 Observationen haben.

Da gibt es verschiedene Faustregeln, manchmal ist auch von 8 die Rede. Die Bezugsgröße ist
dabei aber leider nicht die Gesamtstichprobe, sondern die kleinere Gruppe in der abhängigen
Variable, d.h. hier günstigstenfalls n=13.

Welches Vorgehen ist hier sinnvoll: Ausprobieren aller möglichen Zweierkombinationen der Variablen? Oder "Rausfiltern" der unsignifikanten Variablen über eine multinomiale logistische Regression, wo ich also zuerst alle Variablen nehme und jene nach und nach rausfiltere, welche keinen signifikanten Einfluss habe.

Das führt zu overfitting. Damit erhälst Du ein Modell, dass den Zufall maximal ausnutzt
und an die gegebene kleine Stichprobe angepasst ist, aber nicht generalisierbar. Die p-Werte
wären unzuverlässig.

-> kann mir jemand ein ganz anderes Modell empfehlen, welches hier sinnvoll wäre?

Sinnvoll wäre es meines Erachtens, einmal durchzupusten die Sache realistisch zu betrachten.
Du hast maximal 13 Fälle, die Du vorhersagen willst. Bereits mit 2 (intervallskalierten - bei
kategorialen Variablen wird es noch ärger) Prädiktoren geht das in die Richtung overfitting.
Was wäre so schlecht daran, auf multiple Regression zu verzichten und einfach 7 bivariate
Analysen zu rechnen?

Mit freundlichen Grüßen

PonderStibbons

P.S.
es geht um eine binär-logistische Regression bzw. eine multiples binär-logistische Regression.
Multinomiale Regression ist hier nicht angesprochen, soweit ich sehe?

folgende User möchten sich bei PonderStibbons bedanken:
Nooomi

Nooomi · von **Nooomi** » Di 21. Jun 2022, 09:08

Danke für die schnelle Antwort!

Ok, wenn du sagst 7 bivariate Analysen, dann meinst du, so nehme ich an, keine Regression sondern Korrelation? Also in Richtung Pearson, Spearman oder Kendall? Oder doch die logistische Regression?

Freundliche Grüsse

PonderStibbons · von **PonderStibbons** » Di 21. Jun 2022, 09:19

Das hängt doch vom Skalenniveau des Prädiktors ab. Bei einem kategorialen Prädiktor Chi²-Test,
bei einem ordinalen Prädiktor U-Test (Gruppierungsvariable: die inhaltlich gesehen abhängige Variable),
bei einem intervallskalierten Prädiktor U-Test oder Welch-t-Test (Gruppierungsvariable wiederum
die abhängige Variable).

Für logistische Regressionen bei 1 Prädiktor sehe ich persönlich keinen Bedarf.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Nooomi

strukturmarionette · von **strukturmarionette** » Di 21. Jun 2022, 09:20

Hi,

- neben der 'klassischen' frequentistischen Inferenzstatistik könnten auch Bayes-Statistik oder die Vorgehensweisen mittels Bootstrapping nützen
- die statistischen Anwendungsvoraussetzungen sind dabei anderes
- wichtiger wäre aber zunächst immer eine fachliche Modellbegründung
- Existiert die?
- Existiert eine fachliche nachvollziehbare Bgründung für die Dichotomisierung deiner Kriteriumsvariable?
- Ansonsten spielt u.a. die Software eine Rolle, mit der du vertraut bist
[Allerlei 'Ausprobieralgorithmen' haben (m.E. leider) Hochkonjunktur]

Gruß
S.

bele · von **bele** » Di 21. Jun 2022, 13:07

strukturmarionette hat geschrieben:...neben der 'klassischen' frequentistischen Inferenzstatistik könnten auch Bayes-Statistik oder die Vorgehensweisen mittels Bootstrapping nützen

Und, wenn wir schon Alternativen aufzählen, die LASSO-Regression, die RIDGE-Regression und das elastic net, jeweils als logistische Regression. Je nachdem, worum es in der Studie genau geht und wie man angesichts knapper Daten das Ziel setzt.

LASSO soll angeblich bei Genetikern sehr beliebt sein, wenn die deutlich mehr Gene als beobachtete Fälle haben. p-Werte kommen da aber keine raus, wenn man die braucht.

Bayes macht hier wahrscheinlich nur dann Sinn, wenn man recht konkrete Prior-Annahmen hat, oder übersehe ich da was?

LG,
Bernhard

STATISTIK-FORUM.de

Multinomiale logistische Regression, kleines Sample

Multinomiale logistische Regression, kleines Sample

Re: Multionomiale Regression, kleines Sample

Re: Multinomiale logistische Regression, kleines Sample

Re: Multinomiale logistische Regression, kleines Sample

Re: Multinomiale logistische Regression, kleines Sample

Re: Multinomiale logistische Regression, kleines Sample

Wer ist online?