STATISTIK-FORUM.de

AnjaEmpunkt · von **AnjaEmpunkt** » Mo 10. Jan 2022, 15:23

Moin zusammen,

ich schreibe grade an meiner BA und muss dafür mit einer logistischen Regression arbeiten. Damit komme ich auch soweit gut klar.
Nun ist als Voraussetzung um die lineare Regression rechnen zu können die Linearität des Logits vorgeschrieben.
Das Prüfen habe ich hinbekommen:
a) für jede metrische UV eine neue Variable berechnen in der der ursprüngliche Wert mit dem Logarithmus transformiert wird (UV_ln).
b) dann eine logistische Regression für jeden Faktor mit meiner regulären AV und 1) UV und 2) UV*UV_ln (Interaktion)
Die Interaktion soll dann nicht signifikant sein…ist sie auch bei FAST allen Variablen nicht…

Eine Variable macht leider ärger und ist signifikant - also ist da die Voraussetzung verletzt und es besteht keine Linearität des Logits
Ich habe schon die eine oder andere Idee, wie ich jetzt verfahren könnte, bin mir aber eben nicht 100% sicher.

Meine Stichprobe umfasst 2.479 Datensätze (alle Werte werden einbezogen in die Berechnung - keine fehlenden Werte). Ist das groß genug, sodass man das Signifikantwerden auf die Power schieben kann und eben nicht annehmen muss, dass keine Linearität des Logits besteht? Oder eben groß genug, dass die Voraussetzung "Linearität des Logits" generell ignoriert werden kann? Ich hab online sowas in der Art gelesen, habe aber keine zitierfähige Quelle...wenn das also der Fall sein sollte, dann freue ich mich über einen Hinweis auf die entsprechende zitierfähige Literatur.

Daran hängt es halt grade und ich kann nicht weiterarbeiten bevor ich das Problem gelöst habe...daher würde ich mich über zeitnahe Hilfe freuen. Idealerweise samt zitierfähiger Quelle, sonst kann ich zwar arbeiten aber nicht begründen :/

Liebe Grüße
Anja

AnjaEmpunkt · von **AnjaEmpunkt** » Di 11. Jan 2022, 12:16

Das sind bisher meine Optionen:

1. Ich habe WOCHENSTUNDEN umgebaut in Klassen damit die Variable ordinal ist (dann gilt die Vorraussetzung mit der Linearität des Logits nicht)
Dafür hab ich erst Ränge berechnet und dann eine optimale Klassierung basierend auf eben diesen Rängen durchgeführt (wenn ich einfach selbst klassiert habe -z.B 0-20 Std, 21-40 Std, 41-60 Std und über 60 - dann war die LR mit den klassierten Wochenstunden als UV und meiner normalen AV funky….bei über 60 Std ist das OR bezogen auf die Konstante (0-20) niedriger als 41-60 bezogen auf die Konstante…deshalb hab ich mich umständlich für die Klassierung optimiert nach den Rängen entschieden…dann sieht das ok aus - das allerdings auch nur bei der Einzel-LR AV und WO_Klassen, im Gesamtmodell habe ich das gleiche Problem wie zuvor beschrieben)

2. Meine nächste Idee um die Funkyness rauszunehmen ist Wochenstunden einfach in nur 2 Klassen aufzuteilen (bis 40 Std die Woche und mehr als 40 Std/Wo). So habe ich nur einen Wert, der sich auf die Konstante bezieht und keinen funky Verlauf.

3. Dann habe ich online (leider nicht wirklich zitierfähig) die Aussage gefunden, dass es bei großen Stichproben nicht so schlimm ist, wenn was signifikant wird, da die Power der eben großen Stichprobe wahrscheinlich ursächlich ist und man das damit ignorieren kann…Meine Stichprobe umfasst 2.479 Datensätze (alle ohne fehlende Werte einbezogen). Ist das groß genug, sodass man das Signifikant werden auf die Power schieben kann und eben nicht annehmen muss dass keine Linearität des Logits besteht?

Aber auch für Option 1 oder 2 brauche ich ja irgendwie eine zitierfähige Quelle und kann das nicht einfach so aus dem Ärmel schütteln...
Kann mir da jmd helfen?

PonderStibbons · von **PonderStibbons** » Di 11. Jan 2022, 13:06

Eine Variable macht leider ärger und ist signifikant

Mich wundert angesichts der sehr großen Stichprobe, dass es nur eine ist. Bei solchen Stichprobengrößen
wird eigentlich so ziemlich alles inferenzstatistisch signifikant, auch kleine Abweichungen von der Nullhypothese.
Wozu eigentlich Signifikanztests, die Linearität lässt sich doch besser per Grafik checken?

Mit freundlichen Grüßen

PonderStibbons

strukturmarionette · von **strukturmarionette** » Di 11. Jan 2022, 13:22

Hi,

- versuche doch einmal deine Variablen allesamt konkret darzustellen
- auch: Maßeinheiten der Rohmesswerte

Gruß,
S.

AnjaEmpunkt · von **AnjaEmpunkt** » Di 11. Jan 2022, 13:30

Hier meine Variablen:

AV:
Leisure Sickness-Betroffenheit ja/nein dichotom

UV:
Perfektionismus metrisch
Neurotizismus metrisch
Extraversion metrisch
Offenheit metrisch
Verträglichkeit metrisch
Gewissenhaftigkeit metrisch
wahrgenommene Stressbelastung ordninar (nie, manchmal, oft, immer) innerhalb der logistischen Regression als kategorial eingefügt (muss nicht auf Linearität des Logits geprüft werden da ordinal)
wöchentliche Arbeitsstunden freie Eingabe (Bereinigung um unplausible Angaben, 5 Std waren so bei Nebenjobs/Aushilfsjobs realistisch) Spanne 5-100

bele · von **bele** » Di 11. Jan 2022, 13:47

Hi!

Nehmen wir mal den unrealistischen Fall an, dass perfekte Linearität besteht. Jetzt machst Du sieben Verteilungstests, die jeder mit einem alpha von 5% falsch-positiv werden, dann wird nur in 70% der Studien kein Alphafehler auftreten und in 25% der Studien wird genau einer dieser Tests auffällig sein und in 4% der Studien werden sogar zwei dieser Test falsch-auffällig sein (Binomialverteilung). Also selbst wenn die Annahme richtig wäre, würde ein auf dem 5%-Niveau auffälliger Test noch keine Sorgen bereiten.

Dazu kommt, dass IRL nichts wirklich linear ist und wie PonderStibbons schon schrieb, die Tests bei Deinem n eine enorme Power haben. Das spricht für eine grafisch-visuelle Prüfung bei der das Ausmaß der Linearität, nicht eine Punktschätzung zählt.

LG,
Bernhard

AnjaEmpunkt · von **AnjaEmpunkt** » Mi 12. Jan 2022, 14:32

Hey Bernhard,

danke für Deine Antwort. Warum 7 Tests? Leider verstehe ich die Antwort nicht zu 100% :/

Wie setze ich das genau um? Und wie bzw. auf welchen Ergebnissen begründe ich dann? Wie kann ich das Vorgehen zitierfähig begründen?

LG Anja

AnjaEmpunkt · von **AnjaEmpunkt** » Mi 12. Jan 2022, 15:13

Hier nochmal ein Nachschub worum es genau geht:

Hier nochmal meine Variablen:
AV: von Krankheit x betroffen ja/nein - nominal binär/dichotom
UV:
1 Perfektionismus metrisch
2 Neurotizismus metrisch
3 Extraversion metrisch
4 Offenheit metrisch
5 Verträglichkeit metrisch
6 Gewissenhaftigkeit metrisch

7 wahrgenommene Stressbelastung ordninal (0 nie, 1 manchmal, 2 oft, 3 immer) innerhalb der logistischen Regression als kategorial eingefügt (muss nicht auf Linearität des Logits geprüft werden da ordinal)

8 wöchentliche Arbeitsstunden metrisch freie Eingabe (Bereinigung um unplausible Angaben, 5 Std waren so bei Nebenjobs/Aushilfsjobs realistisch) Spanne 5-100

Es geht mir primär darum zu untersuchen ob sich eine z.B. höhere Ausprägung eines Persönlichkeitsmerkmals (1-6) signifikant auf das Vorhandensein der Erkrankung auswirkt (oder bei der logistischen Regression so interpretiert "die relative Wahrscheinlichkeit betroffen zu sein signifikant erhöht)
Die Variablen 7 und 8 beeinflussen die Betroffenheit von der Erkrankung weshalb ich ein Gesamtmodell brauche (da bietet sich also die logistische Regression an), wo ich eben den Einfluss meiner 6 Persönlichkeitsvariablen ablesen kann aber 7 und 8 "rausgerechnet" wird, damit es keine Scheinkorrelation ist (kann man von einer Scheinkorrelation sprechen, wenn man eine logistische Regression und eben keine Korrelation rechnet?)

Bis eben auf die Linearität des Logits der metrischen Variablen 8 wöchentliche Arbeitsstunden sind alle Bedingungen für eine LR erfüllt
Nun könnte ich:
a) Variable 8 gruppieren aber damit ist a) auch immer ein Informationsverlust verbunden und b) wenn ich gruppiere...wie genau? Sollte mein Vorgehen ja nicht nur begründen sondern auch belegen können....

b) alles so ganz normal mit einer LR rechnen (alle Variablen wie sie sind) und über meine Stichprobengröße (2.479) argumentieren, dass die Linearität des Logits der Variablen 8 vernachlässigt werden kann (aber ist das wirklich so und wenn ja, wo steht das? müsste es ja belegen können)

c) Eventuell die LR mit allen Variablen rechnen (8 unverändert) und Bootstrapping verwenden (damit kenne ich mich allerdings nicht gut aus und wüsste nicht wie ich es a) zitterfähig begründe, b) wie genau ich es in SPSS eingeben muss, um keinen Fehler zu machen und c) inwiefern ich dann meine Interpretation ggf. ändern bzw. generell formulieren soll….UND d) ob das generell mein Problem lösen würde)

d) Einen anderen rechnerischen Trick in SPSS anwenden, der mein Problem löst...(kenne da meine Optionen nicht)

Vllt hat ja jmd eine Idee....

LG Anja

STATISTIK-FORUM.de

Logistische Regression, Linearität des Logits verletzt

Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Re: Logistische Regression, Linearität des Logits verletzt

Wer ist online?