Behandlung von Ausreissern

Fragen, die sich auf kein spezielles Verfahren beziehen.

Re: Behandlung von Ausreissern

Beitragvon Andiego » Mo 16. Dez 2013, 19:48

Die Frage wie man mit solchen Fällen umgeht, lässt sich sicher nicht endgültig beantworten, da von Analyse zu Analyse die Dinge anders aussehen.

Aber: Nehmen wir mal an, du möchtest mit einem Regressionsmodell den Preis einer Wohnung anhand der qm erklären und daraus schließlich eine Schätzfunktion bilden.
Du schaust dir den Datensatz an und siehst, dass die Daten eine lineare Beziehung aufweisen. Eine Wohnung allerdings ist sehr weit entfernt von den übrigen Punkten - z.B. kostet diese 5000€ bei einer qm-Zahl von 40.
Hebelwerte, Cooks, Mahalanobis schlagen aus. Was machst du mit dem Fall? Erklären kannst du dir die Zahlen nicht. Aber plausibler als das es sich um eine 40qm-Wohnung mit goldenen Wassenhähnen handelt, ist, dass sich der HIWI Schlaftrunken bei der Eingabe der Daten vertippt hat.

Plausibilitätskontrollen haben auch etwas mit Pragmatismus zu tun. Was nützt es, ein Modell mit dem Ausreißer zu bekommen, dass nur 20% Varianzaufklärung hat, wenn es ohne den Fall 90% wären. Mit dem Modell kann ich dann vielleicht nicht alle Wohnungen erklären, aber vielleicht 99% aller Fälle. Und das hilft doch schon mal ordentlich weiter :)

Ich möchte noch einmal betonen - in einem der vorigen Posts habe ich das schon mal erwähnt - dass eliminieren nicht heißt, die Fälle verschwinden.

P.S. DHA3000: Ich möchte dich auf den Threat Bootstrapping aufmerksam machen. Da gibts was neues :)
Andiego
Beobachter
Beobachter
 
Beiträge: 19
Registriert: Mo 22. Apr 2013, 16:54
Danke gegeben: 2
Danke bekommen: 2 mal in 2 Posts

Re: Behandlung von Ausreissern

Beitragvon DHA3000 » Mo 16. Dez 2013, 23:15

Nun, wenn es so einen Ausreißer gibt, sollte klar sein, dass dieser nicht dazu gehört.
Wenn aber der quadratmeterpreis abnormal ansteigt, je näher ich mich dem Zentrum nähere, dann sind dies ja keine Fehlwerte. Dazu gibt es ja genügend Möglichkeiten, dies zu berücksichtigen. Sei es durch Logs oder GLS.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Behandlung von Ausreissern

Beitragvon DocX » Mi 18. Dez 2013, 13:05

Hallo,

ich würde auch nochmal unterscheiden zwischen "es fehlt ein Großteil der Daten" und "die Ergebnisse sind nicht plausibel". Interessant finde ich zum Thema Outlier (also Ausreißer) das Beispiel von Andy Field (ich hab's im R Buch gelesen, aber vielleicht steht es in einem SPSS Buch ja auch drin): Da nimmt er bei einer Bewertung seines Buches von 7 Personen bei Amazon. 6 sind im Bereich 4 und 5, einer ist bei 2. Der wird als Outlier identifiziert und eliminiert. Das kann doch nicht sein Ernst sein oder? Also nicht mal für ein Beispiel! Siehe "Discovering Statistics Using R" by Andy Field, reprint 2012, S. 145.
DocX
User
User
 
Beiträge: 38
Registriert: Sa 3. Nov 2012, 19:05
Danke gegeben: 5
Danke bekommen: 1 mal in 1 Post

Vorherige

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast