Seite 1 von 1

Frage zum Umgang mit Ausreißern

BeitragVerfasst: Mi 9. Sep 2020, 16:36
von Apollo_M
Hallo,

ich führe gerade für einen kleinen Datensatz (20 Probanden) eine Regressionsanalyse durch. Hier (https://statistikguru.de/spss/multiple- ... isser.html) ist der Umgang mit Ausreißern beschrieben. Ich habe nach Huber 3 Ausreißer (LEV_1-Wert > .2). Ich habe diese nun entfernt, die ganze Berechnung neu gemacht und habe jetzt wieder Ausreißer. Hätte ich die Probanden nicht komplett löschen dürfen oder kann das so sein?

Danke und liebe Grüße.

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: Mi 9. Sep 2020, 16:46
von bele
Hallo Apollo,

auf der Seite steht "Wenn wir Ausreißer in unserem Datensatz haben, können wir überlegen, ob wir sie von der weiteren Datenanalyse ausschließen möchten". Man muss sich das also im Einzelfall überlegen und kann nicht mechanisch alles löschen, was einem nicht in den Kram passt.

Schau Dir auch mal diesen Thread an (vorrangig natürlich meinen Beitrag in dem Thread ;-) allgemeine-fragen-f5/reihenfolge-t7226.html?hilit=fukushima

Ja, wenn Du aus Deinen Daten die Punkte löschst, die extrem sind, dann können andere Punkte im Vergleich zum verbliebenen Rest extrem wirken. Das ist in aller Regel aber keine Rechtfertigung für extremes Datenmanipulieren.

LG,
Bernhard

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: Mi 9. Sep 2020, 17:06
von Apollo_M
Okay, danke dir. Ich hatte die Werte gelöscht, weil ich gelesen habe, dass Regression ziemlich empfindlich ist, was Ausreißer angeht. Aber dann lasse ich sie vielleicht mal drin und schau erst mal, wie es weiter gehen würde und ob brauchbare Ergebnisse rauskommen.

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: So 13. Sep 2020, 17:37
von matrixboy7
Apollo_M hat geschrieben:Okay, danke dir. Ich hatte die Werte gelöscht, weil ich gelesen habe, dass Regression ziemlich empfindlich ist, was Ausreißer angeht. Aber dann lasse ich sie vielleicht mal drin und schau erst mal, wie es weiter gehen würde und ob brauchbare Ergebnisse rauskommen.


Und eine Lösung gefunden für die Ausreißer? :)

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: So 13. Sep 2020, 17:58
von Apollo_M
Ich hab sie jeweils drin gelassen, weil die jeweiligen Cook-Distanzen sehr klein waren. Ich hoffe, dass somit die Argumentation in meiner Arbeit passt :-)

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: Mo 14. Sep 2020, 19:44
von matrixboy7
Apollo_M hat geschrieben:Ich hab sie jeweils drin gelassen, weil die jeweiligen Cook-Distanzen sehr klein waren. Ich hoffe, dass somit die Argumentation in meiner Arbeit passt :-)


Würde die einfach sachgemäß auch drinlassen, aber wüsste nicht wie ich es argumentieren sollte :D

Re: Frage zum Umgang mit Ausreißern

BeitragVerfasst: Di 15. Sep 2020, 09:04
von Holgonaut
Hallo Leute,

outlier weisen auf 3 mögliche Probleme hin
a) Datenfehler (z.B. aus dem Fragebogen "55" anstatt der 5 abgetippt)
b) Unpassende Fehlerverteilung (z.B. werden für count-Daten OLS Regressionen gerechnet)
c) Die Stichprobe ist eine mixture aus verschiedenen Gruppen

Lösungen
Zu a. Fehler identifzieren und "behandeln". Am besten Fehler korrigieren, oder --wenn man den wahren Werte nicht kennt trimmen, z.B. auf den interquartils-Abstand. Löschen geht natürlich auch, ist aber immer mit der Reduzierung des N, power und Effizienz verbunden. Alternative ist einen robusten Schätzer zu nehmen, der die Residuen durch eine entsprechende Gewichtung in ihrem leverage bremst
Zu b: Entsprechend der Theorie die richtige Verteilung nehmen und eine Residuendiagnostik machen (--> Stichwort generalized linear models)
zu c: wenn es viele outlier gibt, kann es sein, dass es zwei Subgruppen gibt mit unterschiedlichen Effekten. Wenn das N groß genug ist, könnte man daher mal mixture models versuchen.

Werte können auch als outlier erscheinen, wenn die zugrundeliegende Funktion nicht-linear ist. Dann könnten polynomiale Regressionen (x^2 oder x^3) oder besser generlized additive models sinnvoll sein.

Grüße
Holger