STATISTIK-FORUM.de

Zu meiner Ausgangslage:

- Ich habe einen großen Datensatz (n > 20000) mit kontinuierlichen Daten mit den Variablen X und Y
- Meine Hypothese ist, dass die Variable Y mit steigendem X zunimmt
- Mein Plan war es eine lineare Regression durchzuführen, da ein klarer linearer Trend bei den Daten zu erkennen ist (s. Abbildung unten)
- Allerdings folgen die Residuen des linearen Modells nicht der Normalverteilung
- Deswegen dachte ich an ein allgmeines lineares Modell (glm), wofür ich allerdings auch wieder eine Verteilung angeben muss, der meine Daten ungefähr folgen
- Die Tests für verschiedene Datenverteilungen (normal, lognormal, weibull, gamma, poisson, binomial, nbinomial, etc.) waren jedoch alle negativ (p < 0.05)
- Nun weiß ich nicht so wirklich weiter, da ich einfach keine passende Verteilung für meine Daten finde. Soll ich einfach unterschiedliche GLMs ausprobieren und das nehmen, das meine Daten am besten vorhersagt?

Abbildungen zur Veranschaulichung der Daten:
Density Plot und Histogramm: https://imgur.com/JrF0WX8
Scatterplot: https://imgur.com/a/LgRABll
Diagnostic Plots of linear model: https://imgur.com/a/tf2n57C

user_6060 hat geschrieben:- Ich habe einen großen Datensatz (n > 20000) mit kontinuierlichen Daten mit den Variablen X und Y
- Meine Hypothese ist, dass die Variable Y mit steigendem X zunimmt

Das siehst Du ja bereits. Bzw. das könntest Du sogar mit einer Rangkorrelation darstellen. Wieso interessiert Dich die Verteilung der Vorhersagefehler?

Mit freundlichen Grüßen

PonderStibbons

Ist Normalverteilung der Residuen nicht eine Voraussetzung der linearen Regression?

Dormann & Kühn, 2009 (S. 56): https://cran.r-project.org/doc/contrib/ ... tistik.pdf

Nach dem Berechnen eines Modells müssen wir überprüfen, ob die der Methode zugrundeliegenden Annahmen auch erfüllt sind. Dies ist bei der Regression vor allem eine Untersuchung der Residuen auf Normalverteilung.

Hi,

- Deswegen dachte ich an ein allgmeines lineares Modell (glm),

- Mult Lin Regr ist ein Allg Lin Modell.

- Die Tests für verschiedene Datenverteilungen (normal, lognormal, weibull, gamma, poisson, binomial, nbinomial, etc.) waren jedoch alle negativ (p < 0.05)

- Alle diesbzüglichen Sign-Tests sind bei N =20000 untauglich, weil die HO jeweils die Wunschhypothese ist.
- Du kannst Dich nur fachlich oder bei fachlicher Unkenntnis an grafischen Darstellungen der Messwerte (o.ä. deskriptive Maße) für Verteilungsannahmen orientieren.

Gruß
S.

user_6060 hat geschrieben:Ist Normalverteilung der Residuen nicht eine Voraussetzung der linearen Regression?

Nein. Allenfalls für den Signifikanztest. Den hast Du nicht erwähnt. Allerdings ist ab ca. n> 30 auch der Signifikanztest nicht darauf angewiesen, dass die Residuen aus einer normalverteilten Grundgesamtheit stammen.

Mit freundlichen Grüßen

Ponderstibbons

Schon mal vielen Dank für die Hilfe bisher!

D.h., dass ich eine lineare Regression mit den beiden Variablen X und Y und anschließenden f-test zur Überprüfung der Modellgüte ohne Bedenken durchführen kann (solange die anderen Gauß-Markov Theoreme eingehalten sind)?

Eventuell werde ich auch ein GLM ausprobieren und zusätzliche Variablen hinzunehmen und schauen, ob das GLM dann meine Daten besser beschreibt. Beim GLM lassen sich ja auch noch weitere Verteilungen (poisson, gamma, etc.) berücksichtigen.

D.h., dass ich eine lineare Regression mit den beiden Variablen X und Y und anschließenden f-test zur Überprüfung der Modellgüte ohne Bedenken durchführen kann (solange die anderen Gauß-Markov Theoreme eingehalten sind)?

Ich weiß nicht, was genau Du mit Überprüfung der Modellgüte meinst.
Der Signifikanztest des Gesamtmodells bezieht sich auf die Nullhypothese,
dass die Varianzaufklärung durch das Modell in der Grundgesamtheit gleich
Null ist.

Mit freundlichen Grüßen

PonderStibbons

Ich meine die Überprüfung der Gesamtsignifikanz des Modells durch den f-test. Hatte mich falsch ausgedrückt als ich von Modellgüte gesprochen habe.

Hi,

Ich meine die Überprüfung der Gesamtsignifikanz des Modells durch den f-test.

- Der Signifikanztest wird bei N >20 000 immer höchst signifikant, würde keine zusätzliche Erkenntnis bringen.

Eventuell werde ich auch ein GLM ausprobieren und zusätzliche Variablen hinzunehmen und schauen, ob das GLM dann meine Daten besser beschreibt. Beim GLM lassen sich ja auch noch weitere Verteilungen (poisson, gamma, etc.) berücksichtigen.

- Ein Lineare Regression (Allgemeines Lineares Modell) kann auch mehrere UVs.

Gruß
S.

- Der Signifikanztest wird bei N >20 000 immer höchst signifikant, würde keine zusätzliche Erkenntnis bringen.

Wisst ihr hierfür zufällig eine Quelle, die ich heranziehen kann?

- Ein Lineare Regression (Allgemeines Lineares Modell) kann auch mehrere UVs.

Genau, aber beim lm wird ja immer die Gauß-Verteilung angenommen, richtig? Beim GLM könnte ich noch andere Verteilungen berücksichtigen (Befehl in R: Var Y ~ Var X, family = poisson) oder liege ich hier falsch?

STATISTIK-FORUM.de

Statistische Methoden zur Auswertung von schiefen Daten

Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten

Re: Statistische Methoden zur Auswertung von schiefen Daten