Seite 1 von 1

Skalenniveau ändern?

BeitragVerfasst: Mo 19. Jul 2021, 11:59
von Lili21
Hallo zusammen,

ich schreibe gerade meine MA und untersuche den Zusammenhang von Wetter und Tourismus, indem ich eine Multiple Regression durchführe.
Als abhängige Variable habe ich Zahlen zu Teilnehmer an Gästeführungen (also metrisch skaliert) pro Tag über die Jahre 2015-2019.

Als unabhängige Variablen habe ich die folgenden:
- Hitzetage (dummy-codiert -> 0 = der Tag ist kein Hitzetag, 1= der Tag ist ein Hitzetag)
- Veranstaltungen (dummy-codiert -> 0 = der Tag hat keine Veranstaltung, 1= der Tag hat eine Veranstaltung)
- Ferien und Feierttage (dummy-codiert -> 0 = der Tag ist kein Ferien/Feiertag, 1= der Tag ist ein Ferien/Feiertag)
- Typische Einkaufstag (Ordinal -> 1= Sonntag (schlecht), 2 = Dienstag/Mittwoch ... 6= Samstag (sehr gut))

Die Variablen Veranstaltungen und Ferien/Feiertage habe ich ebenfalls in metrischer Form, also wie viele Veranstaltungen an dem Tag stattfinden und wie viele Bundesländer an dem Tag Ferien/Feiertag haben.

Nun zu meinen Fragen:
1. Sollte ich die unabhängigen Variablen Veranstaltungen und Ferien/Feiertage lieber in metrischer oder als Dummy-Variable verwenden?
(Ferien/Feiertage in metrischer Form statt Dummy-Variable führt zu höherem r squared bei Multipler Regression; bei Veranstaltungen ist es genau andersrum)
2. Habe ich ein Problem in meiner Multiplen Regression, wenn meine Einkaufstage ordinal skaliert sind?
(Dachte eig, dass unterschiedliche Skalenniveaus bei der MR kein Problem sind aber habe auch gelesen, dass ordinalskalierte Daten eher als Dummy-Variable verwendet werden sollen.)
3. Benötige ich in R die scale Funktion für meine Multiple Regression?

Ich würde mich sehr freuen, wenn mir jemand helfen könnte.

Viele Grüße

Re: Skalenniveau ändern?

BeitragVerfasst: Mo 19. Jul 2021, 14:02
von strukturmarionette
Hi,

- fachlich begründete Modellspezifikation ist zunächst entscheidend

ansonsten:
http://www.r-forum.de

Gruß
S.

Re: Skalenniveau ändern?

BeitragVerfasst: Mo 19. Jul 2021, 15:29
von bele
Hallo Lili,

Lili21 hat geschrieben:ich schreibe gerade meine MA und untersuche den Zusammenhang von Wetter und Tourismus, indem ich eine Multiple Regression durchführe.
Als abhängige Variable habe ich Zahlen zu Teilnehmer


Wenn es um die Anzahl von irgendwas geht, dann solltest Du mal überlegen, ob Du anstelle der Multiplen Regression nicht lieber eine Poisson-Regression durchführen möchtest (mit glm anstelle von lm).
Nur so als Idee und ohne die Behauptung, dass das bestimmt besser sein wird.

1. Sollte ich die unabhängigen Variablen Veranstaltungen und Ferien/Feiertage lieber in metrischer oder als Dummy-Variable verwenden?
(Ferien/Feiertage in metrischer Form statt Dummy-Variable führt zu höherem r squared bei Multipler Regression; bei Veranstaltungen ist es genau andersrum)


Geht es bei Deinem Modell eher darum, mit niedrigen p-Werten irgendwas zu beweisen (inference) oder geht es darum, ein möglichst gutes Modell für Vorhersagen zu erstellen? Wenn Du mit p-Werten etwas beweisen willst, dann musst Du vor dem Aufstellen des Modells definieren, was Du beweisen willst und das genau dazu passende Modell dann berechnen. Wenn es darum geht, für Vorhersagen ein möglichst gut passendes Modell aufzustellen, dann kannst Du in Grenzen herumprobieren, was passt. Dann nimmst Du halt die Zahl der Ferienländer metrisch und das Vorkommen von Veranstaltungen binär. Beim Inferenz-Modell wäre ein häufiges Umstellen des Modells (herumprobieren) bis es Dir passt ein Pfuschen, beim erstellen eines Prädiktiven Modells ist das ein Teil dessen, was Du aus den Daten lernst.
Wenn beides der Fall ist, dann mach beides und berichte es in getrennten Kapiteln mit getrennten Überschriften in Deiner Arbeit.

2. Habe ich ein Problem in meiner Multiplen Regression, wenn meine Einkaufstage ordinal skaliert sind?
(Dachte eig, dass unterschiedliche Skalenniveaus bei der MR kein Problem sind aber habe auch gelesen, dass ordinalskalierte Daten eher als Dummy-Variable verwendet werden sollen.)


Ein Samstag ist ja nicht dreimal so gut wie ein Dienstag und wenn doch, dann höchstens zufällig. Das sind ordinale Daten und die kann man als Nominaldaten ins Modell aufnehmen. Dazu musst Du sie in R als ordered oder als factor typisieren, dann macht R das mit der Dummycodierung schon selbst.

3. Benötige ich in R die scale Funktion für meine Multiple Regression?


Bislang kann ich noch nicht erkennen, wofür Du die brauchen solltest.

strukturmarionette hat geschrieben:ansonsten:
http://www.r-forum.de


Ich empfehle da lieber http://forum.r-statistik.de . Kannst Dich bei beiden ja mal umschauen und Dir Deine eigene Meinung bilden. Ich würde beispielsweise mal schauen, wieviele Anfragen in den jeweiligen Foren "0 Antworten" haben. Das kann schon Bände sprechen.

LG,
Bernhard

Re: Skalenniveau ändern?

BeitragVerfasst: Di 20. Jul 2021, 21:02
von Lili21
Hallo Bernhard,

vielen Dank für deine schnelle Antwort.
Dein Vorschlag eine Poisson Regression durchzuführen anstelle einer Multiple Regression hat mich jedoch etwas verunsichert.

Wenn es um die Anzahl von irgendwas geht, dann solltest Du mal überlegen, ob Du anstelle der Multiplen Regression nicht lieber eine Poisson-Regression durchführen möchtest (mit glm anstelle von lm).
Nur so als Idee und ohne die Behauptung, dass das bestimmt besser sein wird.


Ich habe versucht mich ein bisschen einzulesen, verstehe jedoch nicht ganz warum eine Multiple Regression nicht auch gut geeignet ist. Zähldaten sind doch für die Multiple Regression als abhängige Variable kein Problem oder? Und für meine Berechnungen wäre r squared zur Erklärung der Varianz wichtig, das hätte ich ja nicht bei der Poisson Regression oder?
Entschuldige, ich bin noch ein bisschen neu in der Statistik.

Geht es bei Deinem Modell eher darum, mit niedrigen p-Werten irgendwas zu beweisen (inference) oder geht es darum, ein möglichst gutes Modell für Vorhersagen zu erstellen? Wenn Du mit p-Werten etwas beweisen willst, dann musst Du vor dem Aufstellen des Modells definieren, was Du beweisen willst und das genau dazu passende Modell dann berechnen. Wenn es darum geht, für Vorhersagen ein möglichst gut passendes Modell aufzustellen, dann kannst Du in Grenzen herumprobieren, was passt. Dann nimmst Du halt die Zahl der Ferienländer metrisch und das Vorkommen von Veranstaltungen binär. Beim Inferenz-Modell wäre ein häufiges Umstellen des Modells (herumprobieren) bis es Dir passt ein Pfuschen, beim erstellen eines Prädiktiven Modells ist das ein Teil dessen, was Du aus den Daten lernst.
Wenn beides der Fall ist, dann mach beides und berichte es in getrennten Kapiteln mit getrennten Überschriften in Deiner Arbeit.


Bei mir geht es darum herauszufinden, wie gut sich Tourismuszahlen durch das Wetter beschreiben lassen (mit Fokus auf Extremwetter). Deswegen ist eine meiner unabhängigen Variable beispielsweise Hitzetage (Dummy-codiert). Also geht es darum nacheinander unterschiedliche Wettervariablen als unabhängige Variable (neben externen Faktoren wie Veranstaltungen etc.) zu verwenden und zu schauen, welche Wettervariable wie gut meine Tourismuszahlen berschreiben kann. Dabei habe ich mir immer zuerst das r2 und dann das Signifikanzniveau angeschaut. Fällt das unter ein Interferenz-Modell?

Ich würde mich sehr freuen, wenn du mir noch einmal helfen könntest :)

Viele Grüße
Lili

Re: Skalenniveau ändern?

BeitragVerfasst: Di 20. Jul 2021, 22:42
von bele
Hallo Lili,

Lili21 hat geschrieben:Dein Vorschlag eine Poisson Regression durchzuführen anstelle einer Multiple Regression hat mich jedoch etwas verunsichert.
[...]
Ich habe versucht mich ein bisschen einzulesen, verstehe jedoch nicht ganz warum eine Multiple Regression nicht auch gut geeignet ist. Zähldaten sind doch für die Multiple Regression als abhängige Variable kein Problem oder?


Oftmals kein gravierendes Problem, manchmal eben doch. Du beobachtest eben nicht mal Sonntags ohne Veranstaltung im kalten Winter negative Besucherzahlen oder halbe Besucher. Das einfache ordinary least squares (OLS) Modell will die aber vorhersagen und passt dann vielleicht die Parameter an, weil die Beobachtungen gar keine negativen Besucher umfassen.

Entschuldige, ich bin noch ein bisschen neu in der Statistik.


Das ist alles ok. Wir alle machen Statistik auf unserem jeweiligen Ausbildungsstand und wenn Du Dich mit einem verallgemeinerten linearen Modell (hier: Poisson) noch nicht wohlfühlst, dann gehst Du das Problem mit den Dir zur Verfügung stehenden Mitteln an. Für eine Masterarbeit lohnt es sich aber vielleicht, sich nebenher doch noch ein wenig in die Poisson-Regression einzulesen.

Bei mir geht es darum herauszufinden, wie gut sich Tourismuszahlen durch das Wetter beschreiben lassen (mit Fokus auf Extremwetter).


Dann sehe ich kein grundsätzliches Problem darin, verschiedene Modelle auszuprobieren und zu schauen, wie gut sie zu den Daten passen. Das Risiko ist halt, dass Du durch Ausschöpfen zu vieler Freiheiten am Ende ein Modell findest, das an Deine Beobachtungen übermäßig gut angepasst ist, sich also dann nicht mehr auf zukünftige Daten verallgemeinern lässt. Du solltest Dich zum Begriff des "overfitting" belesen bevor Du zu dem ERgebnis kommst, dass ein Polynom 200. Grades Deine Daten ganz gut beschreibt.

Dabei habe ich mir immer zuerst das r2 und dann das Signifikanzniveau angeschaut.


Zumindest solltest Du Dir anstelle des R² das adjustierte R² anschauen, sonst bist Du unterwegs ins Overfitting. (Wenn Du eine Poisson-Regression rechnen würdest, würdest Du Dich halt am Chi² oder an der deviance statt am R² orientieren. Aber , wie gesagt, das soll nur ein Gedankenanstoß sein, mehr nicht.)

Wenn Dich Extremwettersituationen besonders interessieren, dann solltest Du vielleicht einen Marker für Extremwetter als unabhängige Variable mit ins Modell nehmen?

LG,
Bernhard