Binär logistische Regression

Alle Verfahren der Regressionanalyse.

Binär logistische Regression

Beitragvon niwe93 » Fr 17. Jun 2022, 15:59

Hallo zusammen :)

im Rahmen meiner Masterarbeit analysiere ich aktuell die Daten aus einer Umfrage zum Thema 'Einfluss psychologischer Faktoren auf das Radfahren'. Konzeptionell orientiere ich mich an einem Paper (https://www.sciencedirect.com/science/article/pii/S1361920910001306).
Darin werden (u.a.) 6 Prädiktoren auf die dichotome Variable Radfahrer (R) = 1 oder Nicht-Radfahrer (NR) = 0 regressiert. Die 6 Prädiktoren sind: Gewohnheit (G), subjektive Norm (SN), wahrgenommene Verhaltenskontrolle (WVK) und 3 Faktoren (FAC 1-3), die Einstellungen darstellen und aus einer Faktoranalyse mit 14 Items entstammen.
Nach der Datenbereinigung habe ich N=451, wobei R = 344 und NR = 107.

Meine Fragen betreffen a) die Voraussetzungen und b) die Auswertung.

a) Geprüft habe ich die Voraussetzungen:
  • unabhängige Beobachtungen,
  • UV intervallskaliert (alle Prädiktoren außer Gewohnheit über 5-stufige Likert Skala, daher ja;
  • Ausreißer,
  • Multikollinearität,
  • Linearität
  • Stichprobengröße,
  • Y-Werteverteilung

Die ersten vier sind erfüllt, wobei es bei den Ausreißern je nach Bewertungskriterien (Cooks-Distanz, Hebel, SResid ...) unterschiedliche Ergebnisse gab. Nach Abwägung von Vor/Nachteilen habe ich mich entschieden, etwaige Ausreißer drin zu lassen.

Frage 1) Linearität: Angewandt habe ich den Box-Tidwell Test. Da die Werte der UV dabei logarithmiert werden und die Einstellungen bzw. die 3 Faktoren, die Einstellungen darstellen, auch negative Werte enthielten, habe ich FAC 1-3 transformiert, sodass min(FAC1-3)=1. also alle Werte positive sind. --> Kann ich das so machen und ist der Test damit noch aussagekräftig? Wenn ja, ist Linearität gegeben und die Voraussetzung erfüllt. Wenn nein - was kann ich stattdessen machen?

Frage 2) Stichprobengröße und Y-Werteverteilung: Als Fuastregel habe ich pro Prädiktor 10 Beobachtungen gefunden. Das wäre bei beiden Gruppen gegeben. Fraglich ist jedoch, ob die Y-Werteverteilung problematisch und zu unbalanciert ist? Dazu finde ich leider keine verlässlichen Quellen.


b) Auswertung in SPSS

Die erste Auswertung der Daten ist im Bildanhang zu sehen (Omnibus, Nagelkerkes R^2 und Hosmer-Lemeshow Test geprüft).

Der 1. Output unterscheidet sich stark von dem aus dem Paper, da nur 2 von 6 signifikant sind, während im Paper 5 von 6 signifikant. Ich habe einen ähnlichen Output erwartet, da in dem Paper eine Umfrage in den Niederlanden gemacht wurde und meine Umfrage in Münster stattfand, einer ebenfalls etablierten Fahrradstadt. Mir ist bewusst, dass so ein Ergebnis durchaus möglich ist - ich versuche allerdings, mögliche Erklärungen zu suchen.

Im 2. Output habe ich die WVK-Variable rausgenommen und für die übrigen UV signifikante Werte erhalten, die dem Original Paper ähneln (s. Anhang).

Frage 3) Wie soll ich damit umgehen? Kann ich genau so ein Vorgehen mit Outputs ein der Arbeit beschreiben und begründen? Fallen euch mögliche Erklärungen ein oder sind diese eher über den Inhalt und die Bedeutung der Variablen zu suchen?


Ich hoffe, meine Probleme sind soweit nachvollziehbar. Falls ihr weitere Angaben braucht, kann ich gerne Outputs oder Datensätze zur Verfügung stellen.

Vielen Dank im Voraus,
Nico

EDIT: Der Dateianhang hat nicht funktioniert, mein Kontingent ist scheinbar vollständig ausgenutzt (?)
niwe93
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 17. Jun 2022, 15:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Binär logistische Regression

Beitragvon niwe93 » Fr 17. Jun 2022, 16:59

Ich habe in einer weiteren Quelle die Voraussetzungen gefunden, dass die Daten sind nicht vollständig separiert sein sollen, d.h. dass z.B. für Y=1 ein bestimmter X-Wert gar nicht vorkommt.

Beim Blick in die Kreuztabelle von Radfahrer/Nicht-Radfahrer * WVK sehe ich, für beide Gruppen in der "Extremkategorie" nur ein Teilnehmer ist. WVK = wahrgenommene Verhaltenskontrolle wurde mit der Frage bestimmt "Den gesamten Weg mit dem Fahrrad zu fahren halte ich für ..." 1 - gar nicht möglich bis 5 - sehr gut möglich.

Von der Gruppe Radfahrer hat also nur einer angekreuzt "Gar nicht möglich" und bei den Nicht-Radfahrern nur einer "Sehr gut möglich".

Meine Fragen: 1) Ist der Einschluss dieser Variable also insofern problematisch, weil mit WVK schon die Gruppenzugehörigkeit "sehr gut" vorhergesagt werden kann? Können deshalb die anderen Variablen insignifikant sein?2) Betrifft das überhaupt die Voraussetzung vollständige (bzw. quasi-vollstädnige) Seperation? Eine Quelle verweist darauf, dass das nur im Falle dichotomer X-Variablen auftreten kann.

LG
niwe93
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 17. Jun 2022, 15:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast