Seite 1 von 2

Reihenfolge?!

BeitragVerfasst: Do 7. Apr 2016, 19:09
von Blech
Hallo ihr Lieben!

Ich bin mir gerade unsicher: Sollte ich erst Ausreißer aus meinem Datensatz entfernen und dann die Testvoraussetzungen überprüfen (z.B. Regression) oder andersherum????

Danke euch! :)

Re: Reihenfolge?!

BeitragVerfasst: Do 7. Apr 2016, 22:41
von strukturmarionette
Hi,

Sollte ich erst Ausreißer aus meinem Datensatz entfernen und dann die Testvoraussetzungen überprüfen

- erstgenanntes

Gruß
S.

Re: Reihenfolge?!

BeitragVerfasst: Fr 8. Apr 2016, 11:36
von Blech
Ok super danke, war mir gestern nicht mehr 100%ig sicher. ;)
Danke! :)

Re: Reihenfolge?!

BeitragVerfasst: Fr 8. Apr 2016, 13:12
von PonderStibbons
Was soll das sein, ein Ausreißer, und wieso sollte man Daten aus seinem Datensatz entfernen wollen?

Mit freundlichen Grüßen

P.

Re: Reihenfolge?!

BeitragVerfasst: So 10. Apr 2016, 10:05
von Blech
Natürlich will ich keine Daten aus meinem Datensatz löschen. Anhand einer Plausibilitätsprüfung jedoch muss man manchmal Daten löschen, oder?! Es kann Werte geben, die von der Fragestellung der Variablen her gar nicht möglich sind und diw würde ich dann schon rausnehmen (einfaches Beispiel: Wie viele eigene Kinder haben Sie? --> Antwort 100)
Außerdem habe ich bei der einen Variable Extremwerte (z > 3.29) von 2.3%. Da habe ich überlegt, ob ich die nicht rausnehmen sollte (auch wenn insgesamt 96.2% im normalen Bereich liegen)?!

Ich kann ja nochmal zusammenfassen, was ich über den Anteil der jeweiligen z-Werte "weiß":
- max. 5% größer als 1.96 (potentieller Ausreißer)
- max. 1% größer als 2.58 (wahrscheinlicher Ausreißer)
- unter 1% größer als 3.29 (Extremwert)

Ungefähr 95% liegen im normalen Bereich.
Alle Werte sollten ungefähr betrachtet werden, oder?!

LG :)

Re: Reihenfolge?!

BeitragVerfasst: So 10. Apr 2016, 19:31
von Blech
Ja klar, bei den handvoll Werten werde ich begründen, warum ich sie rausgenommen habe (hier liegt eindeutig ein Verständnisproblem bei der Variablen vor).
An sich würde ich auch keine Werte rausnehmen, aber bei einer weiteren Variable kann es auch sein, dass jemand sich verlesen hat. Aber ich lasse jetzt alle Werte drin außer bei der einen Variablen, wo es sehr eindeutig ist!
Danke! :)

Re: Reihenfolge?!

BeitragVerfasst: So 10. Apr 2016, 22:25
von PonderStibbons
Außerdem habe ich bei der einen Variable Extremwerte (z > 3.29) von 2.3%. Da habe ich überlegt, ob ich die nicht rausnehmen sollte (auch wenn insgesamt 96.2% im normalen Bereich liegen)?!

Die Logik verstehe ich leider nicht. Warum sollte man die höchsten 2,3% der Werte
löschen wollen, sofern es keine offenkundigen Fehlangaben sind.
Ich kann ja nochmal zusammenfassen, was ich über den Anteil der jeweiligen z-Werte "weiß":
- max. 5% größer als 1.96 (potentieller Ausreißer)
- max. 1% größer als 2.58 (wahrscheinlicher Ausreißer)
- unter 1% größer als 3.29 (Extremwert)

Gibt es eine Vorgabe in Deinem Forschungsbereich, Daten an den Enden der Verteilung zu
löschen, bzw. welchem Zweck soll die Löscherei konkret dienen?

LG

wtf

Mit freundlichen Grüßen

P.

Re: Reihenfolge?!

BeitragVerfasst: Mo 11. Apr 2016, 15:06
von Blech
Konkrete Vorgaben gibt es glaube ich nicht, nur, dass etwa 95% im normal range liegen sollen.

Aufgrund eurer vielen lieben Bemerkungen, werde ich die 2.3% Extremwerte (und alle anderen Ausreißer) drin lassen. Ich war mir wirklich unsicher, weil überall z.B. zur Regression steht, dass man sogar Ausreißer entfernen sollte.

Das Löschen dient dazu, dass es nicht zu großen Verzerrungen kommt.. Ich bin nicht der Profi, ihr seid es. ;)

LG :)

Re: Reihenfolge?!

BeitragVerfasst: Mo 11. Apr 2016, 15:13
von Blech
Kann ich euch gleich noch etwas fragen?? Ihr habt mir schon so sehr geholfen!

Ich habe einen Datensatz von etwa N=1500 und wollte die Variablen auf Normalverteilung testen (Testvoraussetzung für Regression). Leider sind der Kolmogorov- und der Shapiro-Test beide signifikant (0,000/ also H0, dass eine Normalverteilung vorliegt, muss abgelehnt werden). Ich weiß, dass man die beiden Tests bei großen Datensätzen nicht verwenden sollte, da sie schnell signifikant werden (was ich ja nicht will). Hab mir dann die Kurtosis und Schiefe angeschaut:
Kurtosis 1.6 (SE 0.13)/ Schiefe -1.1 (SE 0.06) - Diese Werte wollte ich z-standardisieren, um sie zu interpretieren (oder gibt es einen allg. Richtwert, um die Schiefe und Kurtosis zu interpretieren für die Normalverteilung?).

Hab sie so berechnet: ((S oder K – mean)/ SE von S oder K).. Auch das Q-Q-Diagramm weicht sehr von der Linie ab..
Heißt das jetzt, dass ich die Regression nicht durchführen darf, da eine Normalverteilung anscheinend nicht vorliegt?? Oder kann ich noch etwas tun, um zu schauen, ob die Variable normalverteilt ist?
An sich ist es für die Variable nicht schlimm, dass sie nicht ganz normalverteilt ist..

Ich danke euch vielmals!!! :)

Re: Reihenfolge?!

BeitragVerfasst: Mo 11. Apr 2016, 15:19
von bele
Blech hat geschrieben:Ich bin nicht der Profi, ihr seid es.

Ohne Profi zu sein: Die von Dir aufgeworfene Frage ist hoch komplex und kann nicht mit einem simplen Schema beantwortet werden. Extreme Werte können unsinnig entstandene Werte sein (Messwert falsch auf den Erhebungsbogen übertragen) oder das Ergebnis einer tatsächlichen Streuung der Messgröße sein. In Fukushima hatte man Mauern gegen 5,5m hohe Wellen gebaut. Dann kam die 10m hohe Welle. Sie war ein Extremwert, aber einer, den das Meer tatsächlich produziert hat. Die 10m Welle war real und es wäre verfälschend, sie aus den Archiven streichen zu wollen. Hätte aber jemand versehentlich eine 10cm Welle als 10m Welle dokumentiert, dann müsste man diesen offensichlich falschen Wert aus den Messungen streichen. Das hat gar nichts damit zu tun, welchen z-Wert eine 10m-Welle vor Fukushima hat.

Es muss also um die Frage gehen, wie es am wahrscheinlichsten zu den extremen Werten gekommen ist und ob man den kleineren Fehler macht, wenn man sie streicht oder ob man den kleineren Fehler macht, wenn man sie drin lässt (eine zu hohe Mauer für Fukushima wäre teuer gewesen. Eine zu niedrige war fatal). Ohne Sachkunde in Ozeanographie, Hydrologie, Physik und Katastrophenschutz lässt sich die Frage nach der angemessenen Mauerhöhe nicht beantworten. Auch wir werden Deine Frage nicht beantworten können, ohne die Hintergründe genauestens zu kennen. Ohne sachwissenschaftlichen Hintergrund kann man Dir da nicht anständig raten.


Zum Thema Regression: Kümmere Dich einfach gar nicht um die Frage, ob die Variable normalverteilt ist. Sie interessiert keinen. Zeichne nochmal einen QQ-Plot von den Residuen der Regression. Aber auch da kommt es bei n>1000 nicht so drauf an.


LG,
Bernhard