STATISTIK-FORUM.de

Kaialaika · von **Kaialaika** » So 17. Jul 2022, 16:41

Hallo zusammen,

ich bin neu hier und hoffe ihr könnt mir helfen. Ich habe ein Problem, was mich ziemlich verzweifeln lässt.

Für meine Masterarbeit wollte/habe ich eine logistische Regression mit der abhängigen Variable "Arbeitszufriedenheit" und mit 12 unabhängigen Variablen gerechnet (alle UVs entweder kategorial oder als Dummy kodiert)...Ich weiß, dass ist ein ziemlich großes Modell. Es hat sich aus der Theorie heraus so entwickelt...

Ich habe den erstellten Datensatz (2995 Fälle) den ich aus den originalen Daten gebildet habe nochmals gefiltert sodass ich eine Stichprobe für alle Personen im Home-Office erhalten habe (1271 Fälle) und eine Stichprobe für alle Personen im Büro (1724 Fälle).

Die Probleme, welche hier bestehen sind:

- Bei beiden Stichproben ist die abhängige Variable sehr ungleich verteilt. Die kleinere Gruppe macht jeweils nur einen sehr geringen Teil der Stichprobe aus (Bsp.: 86 zu 1185).

- Auch die Dummy-Variablen sind sehr ungleich verteilt. Die Referenzkategorie ist immer größer und die Unterschiede sind sehr stark (Bsp.: 1161 zu 110)...die Mindestfallzahl von 10 ist in allen Kategorien gegeben aber ich habe hier in einem
anderen Beitrag gelesen, dass dies von der Gesamtzahl der Stichprobe abhängt. Die verwendeten Variablen wären jedoch für meine Arbeit alle wichtig.

Ich vermute jetzt einfach mal, dass die Regression so keinen Sinn macht...ich bin mit meinem Latein allerdings am Ende und meine statistischen Kenntnisse sind auch nicht die Besten...oder es ist die absolute Panik vor einem möglichen durchrasseln bei der Masterarbeit.

Was kann ich hier tun? An den Daten kann ich nichts verändern, da ich einen Datensatz verwende und keine eigene Erhebung gemacht habe.

Vielen Dank schonmal an jeden der mir hier helfen kann

Viele Grüße
L.

bele · von **bele** » So 17. Jul 2022, 17:31

Hallo Kaia,

Zunächst erscheinen 1200 Fälle für 12 Prädiktoren doch erstmal gut. Die Asymmetrie zwischen Arbeitszufriedenen und Nichtarbeitszufriedenen (ist das wirklich binär?) ist unschön, für sich genommen aber noch keine Katastrophe. Hast Du denn einfach mal versucht, das zu rechnen? Weißt Du, dass etwas nicht funktioniert?

Wenn Du Hilfe brauchst, musst Du uns etwas zum Arbeiten geben. Soll das ein Vorhersagemodell werden oder geht es um Inferenz? Wenn Inferenz, geht es um einen Prädiktor speziell oder um alle zwölf gleichermaßen? Wenn die Daten aus einem größeren Datensatz stammen, lassen sich da vielleicht Prior-Annahmen entwickeln, welchen Einfluss welcher Prädiktor ungefähr haben wird?

Wenn alles andere scheitert muss man über Oversampling oder ähnliche Eingriffe in die Daten nachdenken, bevor man die Daten ganz verwirft. Sodass will dann aber gut begründet sein.

LG, Bernhard

Kaialaika · von **Kaialaika** » So 17. Jul 2022, 18:29

Hallo Bernhard,

vielen herzlichen Dank für deine schnelle Antwort

Du hast Recht. Ursprünglich war die AV als ordinale Variable vorgesehen. Als ich dann eine ordered logit Regression (bei mir der 'polr' Befehl in R) gerechnet habe war das ein absoluter Reinfall als es an die Tests der Modellgüte und Anpassung ging (Brant-Test, Lipsitz Test und Pulkstenis-Robinson Test). Also hatte ich mich nach ewigem hin und her rechnen für die Methode entschieden, die ich bereits kannte und da die Variable mit "nicht zufrieden", "weniger zufrieden", "zufrieden" und "sehr zufrieden" kodiert war habe ich die beiden letzteren Kategorien zusammen genommen und die Variable mit 0= Nicht zufrieden und 1= Zufrieden gebildet. Ich weiß dass das kritisch ist aber da hatte ich keine andere Option mehr gesehen, was mein Wissen zum Thema Statistik anging...

Die 12 Prädikatoren unterteilen sich nochmal in die Dummies der ordinalskalierten Variablen (Beispiel: "Erhalten sie Lob bei der Arbeit" mit der Referenz "nie" und den Kategorien "selten", "manchmal" und "häufig")...daher entstanden die Zweifel,
da es dann theoretisch 12 Variablen sind aber dann im Modell 20, die getestet werden. Bitte entschuldige, ich war mir nicht sicher wie ich das am besten schreibe.

Grundsätzlich möchte ich herausfinden, welcher Prädikator einen (großen) Einfluss auf die Arbeitszufriedenheit hat. Es ist auch tatsächlich so, dass aufgrund der Natur der Items/Fragen im ursprünglichen Datensatz (Leistungserleben, Anerkennung und Lob, Art der Führung etc.) davon ausgegangen werden kann, dass die Antworten eben meist positiv ausfallen und nur wenige angeben, dass die gegebenen Umstände negativ sind und entsprechend negativ antworten.

Bei der Auswahl der Fälle bin ich eigentlich so vorgegangen, dass ich alle gewählten Variablen in einen finalen Datensatz gebracht habe mit dem Befehl complete.cases() dann alle vollständigen Antworten erhielt und daraufhin dann gefiltert habe mit dem Befehl subset() in Home-Office und Büro Stichproben.

Auch die Tests (Likelihood-Ratio Test, Cooks-Distance, Pseudo R (McFadden jeweils bei 0.25 und 0.23, Nagelkerke jeweils bei 0.301 und 0.28) und auch die Konfusionsmatrix und die ROC-Kurve mit jeweils ca. 0.83 bei beiden Modellen) waren soweit auch gut...ich hatte dann aber das Gefühl, dass es zu gut war. Und da habe ich wirklich Angst bekommen, dass die Ergebnisse verzerrt sind...eben aufgrund der geringen Fallzahl, vor allem bei der AV.

Bitte entschuldige, wenn ich es umständlich beschrieben habe oder meine Gedanken und mein Vorgehen hier sinnfrei sind.

Nochmal vielen herzlichen Dank für deine Zeit! Ich weiß es sehr zu schätzen

Liebe Grüße
Laura

bele · von **bele** » So 17. Jul 2022, 19:41

Hallo Laura,

das klingt doch erstmal nicht schlecht und Du scheinst Angst vor Overfitting zu haben, weil Dir die Ergebnisse "zu gut" erscheinen. Ein Weg, das zu testen wäre eine Kreuzvalidierung / Crossvalidation.
Denkbar wäre auch, anstelle des OLS-Modells eine elastic net-Regression mit dem Paket glmnet zu rechnen - da erfolgt die Variablenauswahl dann automatisch via Kreuzvalidierung und Du hast wenig Arbeit damit, wenn Du Dich mit glmnet erst vertraut gemacht hast.

Unabhängig davon würde ich bei ordinalen Prädiktoren kritisch hinterfragen, ob die wirklich dummycodiert ins Modell eingehen sollen. Es kann gut sein, dass einzelne Antwortstufen selten vorkommen und wenn die dann noch mit Arbeitsunzufriedenheit korrelieren, wäre das doof. Natürlich ist das nicht optimal aber bei der Abhängigen hast Du ja auch einen Kompromiss gemacht.

LG, Bernhard

PS: Leseeinstieg glmnet zu.B. hier http://sthda.com/english/articles/36-cl ... astic-net/ und danach https://glmnet.stanford.edu/articles/glmnet.html

Kaialaika · von **Kaialaika** » So 17. Jul 2022, 20:27

Hallo Bernhard,

vielen vielen Dank für deine Antwort.

Ich werde mich auf jeden Fall in die Kreuzvalidierung einlesen und auch in die vorgeschlagene elastic net-Regression, Danke!

Das Problem bei meinem Modell ist, dass fast alle Variablen - bis auf 3 tatsächlich dichotome Variablen - ordinal sind (mit entweder 3 oder meistens 4 Ausprägungen/Kategorien). Ich bin davon ausgegangen, dass ich ordinale Variablen nicht "so wie sie sind" mit aufnehmen kann, da sie hier in einer Rangfolge vorliegen und weglassen kann ich sie leider auch auf keinen Fall.... Würde ich sie dann gegebenenfalls als metrisch betrachten? Geht das?

Viielen Dank dir und ich hoffe ich darf mich hier noch einmal melden, falls ich auf weitere Probleme stoße

Liebe Grüße
Laura

bele · von **bele** » So 17. Jul 2022, 21:10

Hallo Laura,
Ich lese gerade Gelman, Hill, Vehtari, Regression and Other Stories, 2020. Auf Seite 185 wird da ein 7-stufiges Item von 1=strong Democrat über 4=independent bis 7=strong Republican als quasi-metrisch mit nur einem Koeffizienten verwendet. So etwas ist also nicht aus der Welt und muss halt abgewogen werden. Ob das geht muss letztlich Dein Betreuer entscheiden. Vielleicht hilft mein Verweis auf ein aktuelles Lehrbuch, ihn zu überzeugen?

Statt elastic net würde ich der Einfachheit halber jetzt LASSO sagen - die verlinkte Seite der Stanford Uni ist sehr gut. Es gibt zu glmnet auch einen sehr guten Vortrag von Trevor Hastie auf Youtube.

LG, Bernhard

Kaialaika · von **Kaialaika** » So 17. Jul 2022, 21:23

Hallo Bernhard,

Danke dir für den Hinweis

Dann werde ich mich mal bei meinem Betreuer schlau machen. Ich habe dank dir neue Hoffnung, dass es vielleicht doch noch etwas wird mit dieser Arbeit.

Und auch danke für den Hinweis zu Youtube!

Liebe Grüße,
Laura

bele · von **bele** » So 17. Jul 2022, 21:44

Ich bin da guter Dinge - Betreuer wissen auch, dass logistische Regression mit asymmetrische Outcome-Verteilung schwierig ist. Rechne am besten alle Modelle mal durch und geh mit den Ergebnissen zu ihm hin. Frag bei der Gelegenheit mal vorsichtig, wieviel Hilfe Du Dir im Netz holen darfst - es gibt immer mal wieder Leute, die dann nach umfangreicher Beratung alles hier gelöscht haben wollen und das finden wir garnicht gut.
Viel Erfolg und berichte mal, was der Betreuer sagt.
LG, Bernhard

Holgonaut · von **Holgonaut** » Di 19. Jul 2022, 09:10

Hallo Leute,

drei Anmerkungen

1) ich nehme an, complete.cases() hat alle Personen gelöscht, die irgendwo missing waren? Wenn ja, würde ich das unbedingt anders handeln (z.B. mit multipler Imputation). Das dürfte auch in ein cross-validation framework gut passen. Ich üwrd mal nach dem Stichwort TidyModels suchen. Da gibt es einen stoischen workflow, mit dem du auf zig Modelltypen zugreifen kannst--cross-validation inklusive. Innerhalb eines sog. "recipies" kannst du auch over-/undersampling betreiben--allerdings weiß ich niht ob das auch die AV betrifft. Auch auf youtube gibt es ne Menge Videos dazu (such mal nach Julia Silge. Hier ist ein workflow für ein normales / metrisches Lasso: https://juliasilge.com/blog/lasso-the-office/)

2) @Bele. Die Idee mit Lasso / ridge reg / elastic net hatte ich auch--und war zu nächst aber am Zweifeln, ob das nicht nur für metrische outcomes geht. Aber das scheint nicht der Fall zu sein, siehe https://stats.stackexchange.com/questio ... n-problems
(Die nutzen auch glmnet, was im Rahmen des Tidymodels workflows angeprochen werden kann).

3) Vielleicht hilft des paper hier
King and Zeng (2001): "Logistic Regression in Rare Events Data"
https://www.cambridge.org/core/services ... s_data.pdf

Ich muss aber noch mal drauf hin weisen, dass du dich hier im reinen empirizistischen-explorativen Kontext bewegst, was auch die Diskussion der Ergebnisse betrifft. Ich sag dass, weil häufig Anwender von Machine learning erst große Flaggen hissen, dass ja nur "predicten" wollen--dann im Discussion Teil des papers dann große theoretische Interpretationen vornehmen.

Grüße
Holger

Kaialaika · von **Kaialaika** » Di 19. Jul 2022, 11:23

Hallo zusammen,

erst einmal: vielen Dank für euren Input!

Ich habe mir einiges mal angesehen - und es mag wie Resignation klingen - aber ich muss sagen: Es übersteigt meine Kompetenzen/Wissen/Fähigkeiten um Welten...Bitte entschuldigt, dass ich es vermutlich nicht so umsetzen kann...

Das mit der Lasso-Regression ist interessant, ich werde es mal versuchen aber in Anbetracht der Zeit die ich noch habe, wird das eng

Trotzdem bin ich euch sehr dankbar für euren Rat und hoffe, dass andere mit ähnlichen Problemen hier eine Lösung gefunden haben!
Ich habe mit meinem Betreuer gesprochen und fühle mich jetzt etwas besser...etwas hinzuschreiben von dem ich unterm Strich eh keine Ahnung habe wird wohl nicht der beste Weg sein...
Bei der Interpretation werde ich selbstverständlich kritisch sein

! Ich schreibe alle meine Bedenken auf und hoffe aufs Beste.

Nochmal vielen herzlichen Dank euch!
Viele Grüße
Laura

STATISTIK-FORUM.de

Multiple logistische Regression - zu geringe Fallzahl..Hilfe

Multiple logistische Regression - zu geringe Fallzahl..Hilfe

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Re: Multiple logistische Regression - zu geringe Fallzahl..H

Wer ist online?