Seite 1 von 1

Regressionsanalyse mit schwierigem Datensatz und ordinalen X

BeitragVerfasst: Mi 9. Okt 2019, 21:53
von quiqäck
Hallo Leute,

Ich Beschäftige mich momentan mit einer Regressionsanalyse. In dem mir vorliegenden Beispiel geht es um eine Krankheit (die zu erklärende bzw analysierende Y-Variable).
Die Beschreibenden X-Variablen sind allerdings zum Teil Ordinal (Also zum Beispiel Altersgruppen von 21-30, 31-40, 41-50, usw...), zum Teil Nominal (Mann/Frau) und zum Teil Kardinal (Körpergröße in cm) skaliert.
Das Ziel soll hierbei darin liegen, aus den jeweiligen X-Werten eine Prognose hin zum Y-Wert zu ermöglichen und gleichzeitig den Einfluss der einzelnen Variablen zu analysieren.

Der mir vorliegende Excel-Datensatz hat folgende Form (Spalten von links nach rechts):

Altersgruppe ; Geschlecht ; Körpergröße ; Anzahl an Personen (mit den Merkmalen links) gesamt ; Davon Erkrankte Personen

Die Tabelle hat in meinem Fall auch mehrere hundert Zeilen, in denen fiktive Daten zu insgesamt rund 50000 fiktiven Testpersonen zu finden sind.

Das Problem ist nun, dass nicht für jeden einzelnen "Studienteilnehmer" eine eigene Zeile existiert, sondern alle Studienteilnehmer, die dieselbe Körpergröße haben und in derselben Altersgruppe sind und dabei noch das gleiche Geschlecht haben sind hierbei in einer Zeile. Für Analysen bei SPSS oder Excel braucht man ja in der Regel Datensätze, in der jede einzelne Person in einer "eigenen" Zeile ist. So gibt es zum Beispiel im Datensatz 185 Männer zwischen 21 und 30 Jahren mit einer Körpergröße von 181cm, von denen 3 erkrankt sind.

Wie würdet ihr in solch einem Szenario vorgehen? Wie würdet ihr den Datensatz aufbereiten? Welche Methoden zur deskriptiven Analyse existieren dazu? Welche mathematischen Modelle sind dort sinnvoll? Würdet ihr zu Excel oder SPSS greifen?
Vielen Dank für eure Hilfe.
Bei Fragen einfach anschreiben

Beste Grüße

Re: Regressionsanalyse mit schwierigem Datensatz und ordinal

BeitragVerfasst: Mi 9. Okt 2019, 22:49
von PonderStibbons
Aus der Ordinalskala mit k Stufen musst Du k-1 dummy-Variablen machen, mit denen Du dann weiter rechnest.
Geschlecht sollte ebenfalls dummy-codiert sein.

Jede Variablenkombination (Zeile) wäre dann zu verdoppeln und die Variable "Erkrankungs-Status" (0=nicht erkrankt, 1=erkankt) sowie "Anzahl" hinzuzufügen.
Aus
185 Männer zwischen 21 und 30 Jahren mit einer Körpergröße von 181cm, von denen 3 erkrankt sind

wird dann (mal angenommen, es gibt 4 Altersgruppen und die älteste Gruppe fungiert als Referenzkategoie ohne eigenen dummy):
1 (für männlich), 1 (Alter 21-30), 0 (Alter 31-40), 0 (Alter 41-50), 181 (Größe), 0 (nicht erkrankt), 182 (Anzahl)
sowie
1, 1, 0, 0, 181, 1, 3

Wenn der Datensatz entsprechend aufbereitet ist, kannst Du in SPSS eine logistische Regression rechnen und dabei
jede auftretende Kombination (Zeile) nach "Anzahl der Personen" (letzte Angabe im Beispiel) gewichten.

Mit freundlichen Grüßen

PonderStibbons