Hallo ihr Lieben, Hallo PonderStibbons,
also ich will auf Ausreißer testen und habe mich jetzt länger mit dem betreffenden Abschnitt in diesem Text befasst:
https://www.uni-trier.de/fileadmin/urt/ ... linreg.pdfund hatte auf der einen und der anderen Internetseite gelesen.
z.B.
https://statistikguru.de/spss/multiple- ... isser.htmlSo wie ich das sehe kann ich:
1 - Ausreißer anhand der Residuen (z.B. größer als 3SD) in SPSS versuchsweise ausschließen lassen (was eine Bessere Modellpassung ergeben sollte)
2 - das gleiche für Studentisierte ausgeschlossene Residuen ansehen
3 - die Hebelwerte untersuchen (im Zusammenhang zu den Residuen)
4 - Cook-Distanzen untersuchen
Kontext noch - es geht mir dabei nicht um die Suche nach Eingabefehlern,
sondern nach auffälligen Fällen.
Wenn ich meine Daten untersuche sollte ich mir, dass dann immer 1 zu 4 in der Reihnfolge ansehen?
So wie ich das verstanden habe kann ich dann sicher einen Fall ausschließen,
wenn er auf mehreren der 4 Ebenen als Ausreißer bestimmt wird.
Gleichzeitig würde (so ich es in dem ersten Text gelesen habe) ein gutes Residuum bei schlechten Cook Werten bedeuten,
dass ich den Fall doch drin behalte - richtig?
Wenn ich die Hebelwerte betrachte steht in dem Text:
Fälle mit extremen Werten bei unabhängigen Variablen verfügen über einen starken Einfluss auf die
Schätz- und Testergebnisse, wenn ihr Residuum relevant von null abweicht. Man spricht hier von einer
starken Hebelwirkung. [...]
[es folgt eine Berechnung von Hebelwerten und ein Vergleich mit der Stichprobe. Ein paar Werte übersteigen den kritischen Hebelwert.]
Ob diese Städte tatsächlich einen unangemessen starken Einfluss auf
die Schätzergebnisse haben, hängt von ihrem Residuum ab.
Ab wann weicht etwas relevant von Null ab?
Aber vor allem - "hängt von Ihrem Residuum ab" - von welchem wohl? Den rohen Residuen? Den Standartisierten/Studentisiert/ausgeschlossen Studentisiert?
Welche soll man da nehmen?
Ich habe auch nachgelesen, was die Kategorien Bedeuten - ich würde zu den studentisierten, ausgeschlossenen neigen, aber ich weiß es nicht.
Der Fall mit dem höchsten Hebelwert kommt bei mir auf 0.325 hat aber ein ausgelassen-studentisiertes Residuum von nur -0.00994
(und eine Cook-Distanz von 0.00002).
Der Kritische Hebelwert lautet dabei bei mir so: (2*k)/N = (2*1)/337 = 0,005934
Aus meiner Wahrnehmung weicht -0.00994 nicht relevant von 0 ab, also ist der Hebelwert auch egal, richtig?
Es heißt nur - Vorsicht, dieser Fall hat einen starken Einfluss auf das Modell.
Tut mir leid, dass es so lang geworden ist.
Vielen Dank.
Liebe Grüße,
Otja.