Reihenfolge?!

Fragen, die sich auf kein spezielles Verfahren beziehen.

Reihenfolge?!

Beitragvon Blech » Do 7. Apr 2016, 19:09

Hallo ihr Lieben!

Ich bin mir gerade unsicher: Sollte ich erst Ausreißer aus meinem Datensatz entfernen und dann die Testvoraussetzungen überprüfen (z.B. Regression) oder andersherum????

Danke euch! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon strukturmarionette » Do 7. Apr 2016, 22:41

Hi,

Sollte ich erst Ausreißer aus meinem Datensatz entfernen und dann die Testvoraussetzungen überprüfen

- erstgenanntes

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

folgende User möchten sich bei strukturmarionette bedanken:
Blech

Re: Reihenfolge?!

Beitragvon Blech » Fr 8. Apr 2016, 11:36

Ok super danke, war mir gestern nicht mehr 100%ig sicher. ;)
Danke! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon PonderStibbons » Fr 8. Apr 2016, 13:12

Was soll das sein, ein Ausreißer, und wieso sollte man Daten aus seinem Datensatz entfernen wollen?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

Re: Reihenfolge?!

Beitragvon Blech » So 10. Apr 2016, 10:05

Natürlich will ich keine Daten aus meinem Datensatz löschen. Anhand einer Plausibilitätsprüfung jedoch muss man manchmal Daten löschen, oder?! Es kann Werte geben, die von der Fragestellung der Variablen her gar nicht möglich sind und diw würde ich dann schon rausnehmen (einfaches Beispiel: Wie viele eigene Kinder haben Sie? --> Antwort 100)
Außerdem habe ich bei der einen Variable Extremwerte (z > 3.29) von 2.3%. Da habe ich überlegt, ob ich die nicht rausnehmen sollte (auch wenn insgesamt 96.2% im normalen Bereich liegen)?!

Ich kann ja nochmal zusammenfassen, was ich über den Anteil der jeweiligen z-Werte "weiß":
- max. 5% größer als 1.96 (potentieller Ausreißer)
- max. 1% größer als 2.58 (wahrscheinlicher Ausreißer)
- unter 1% größer als 3.29 (Extremwert)

Ungefähr 95% liegen im normalen Bereich.
Alle Werte sollten ungefähr betrachtet werden, oder?!

LG :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon Blech » So 10. Apr 2016, 19:31

Ja klar, bei den handvoll Werten werde ich begründen, warum ich sie rausgenommen habe (hier liegt eindeutig ein Verständnisproblem bei der Variablen vor).
An sich würde ich auch keine Werte rausnehmen, aber bei einer weiteren Variable kann es auch sein, dass jemand sich verlesen hat. Aber ich lasse jetzt alle Werte drin außer bei der einen Variablen, wo es sehr eindeutig ist!
Danke! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon PonderStibbons » So 10. Apr 2016, 22:25

Außerdem habe ich bei der einen Variable Extremwerte (z > 3.29) von 2.3%. Da habe ich überlegt, ob ich die nicht rausnehmen sollte (auch wenn insgesamt 96.2% im normalen Bereich liegen)?!

Die Logik verstehe ich leider nicht. Warum sollte man die höchsten 2,3% der Werte
löschen wollen, sofern es keine offenkundigen Fehlangaben sind.
Ich kann ja nochmal zusammenfassen, was ich über den Anteil der jeweiligen z-Werte "weiß":
- max. 5% größer als 1.96 (potentieller Ausreißer)
- max. 1% größer als 2.58 (wahrscheinlicher Ausreißer)
- unter 1% größer als 3.29 (Extremwert)

Gibt es eine Vorgabe in Deinem Forschungsbereich, Daten an den Enden der Verteilung zu
löschen, bzw. welchem Zweck soll die Löscherei konkret dienen?

LG

wtf

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

Re: Reihenfolge?!

Beitragvon Blech » Mo 11. Apr 2016, 15:06

Konkrete Vorgaben gibt es glaube ich nicht, nur, dass etwa 95% im normal range liegen sollen.

Aufgrund eurer vielen lieben Bemerkungen, werde ich die 2.3% Extremwerte (und alle anderen Ausreißer) drin lassen. Ich war mir wirklich unsicher, weil überall z.B. zur Regression steht, dass man sogar Ausreißer entfernen sollte.

Das Löschen dient dazu, dass es nicht zu großen Verzerrungen kommt.. Ich bin nicht der Profi, ihr seid es. ;)

LG :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon Blech » Mo 11. Apr 2016, 15:13

Kann ich euch gleich noch etwas fragen?? Ihr habt mir schon so sehr geholfen!

Ich habe einen Datensatz von etwa N=1500 und wollte die Variablen auf Normalverteilung testen (Testvoraussetzung für Regression). Leider sind der Kolmogorov- und der Shapiro-Test beide signifikant (0,000/ also H0, dass eine Normalverteilung vorliegt, muss abgelehnt werden). Ich weiß, dass man die beiden Tests bei großen Datensätzen nicht verwenden sollte, da sie schnell signifikant werden (was ich ja nicht will). Hab mir dann die Kurtosis und Schiefe angeschaut:
Kurtosis 1.6 (SE 0.13)/ Schiefe -1.1 (SE 0.06) - Diese Werte wollte ich z-standardisieren, um sie zu interpretieren (oder gibt es einen allg. Richtwert, um die Schiefe und Kurtosis zu interpretieren für die Normalverteilung?).

Hab sie so berechnet: ((S oder K – mean)/ SE von S oder K).. Auch das Q-Q-Diagramm weicht sehr von der Linie ab..
Heißt das jetzt, dass ich die Regression nicht durchführen darf, da eine Normalverteilung anscheinend nicht vorliegt?? Oder kann ich noch etwas tun, um zu schauen, ob die Variable normalverteilt ist?
An sich ist es für die Variable nicht schlimm, dass sie nicht ganz normalverteilt ist..

Ich danke euch vielmals!!! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Reihenfolge?!

Beitragvon bele » Mo 11. Apr 2016, 15:19

Blech hat geschrieben:Ich bin nicht der Profi, ihr seid es.

Ohne Profi zu sein: Die von Dir aufgeworfene Frage ist hoch komplex und kann nicht mit einem simplen Schema beantwortet werden. Extreme Werte können unsinnig entstandene Werte sein (Messwert falsch auf den Erhebungsbogen übertragen) oder das Ergebnis einer tatsächlichen Streuung der Messgröße sein. In Fukushima hatte man Mauern gegen 5,5m hohe Wellen gebaut. Dann kam die 10m hohe Welle. Sie war ein Extremwert, aber einer, den das Meer tatsächlich produziert hat. Die 10m Welle war real und es wäre verfälschend, sie aus den Archiven streichen zu wollen. Hätte aber jemand versehentlich eine 10cm Welle als 10m Welle dokumentiert, dann müsste man diesen offensichlich falschen Wert aus den Messungen streichen. Das hat gar nichts damit zu tun, welchen z-Wert eine 10m-Welle vor Fukushima hat.

Es muss also um die Frage gehen, wie es am wahrscheinlichsten zu den extremen Werten gekommen ist und ob man den kleineren Fehler macht, wenn man sie streicht oder ob man den kleineren Fehler macht, wenn man sie drin lässt (eine zu hohe Mauer für Fukushima wäre teuer gewesen. Eine zu niedrige war fatal). Ohne Sachkunde in Ozeanographie, Hydrologie, Physik und Katastrophenschutz lässt sich die Frage nach der angemessenen Mauerhöhe nicht beantworten. Auch wir werden Deine Frage nicht beantworten können, ohne die Hintergründe genauestens zu kennen. Ohne sachwissenschaftlichen Hintergrund kann man Dir da nicht anständig raten.


Zum Thema Regression: Kümmere Dich einfach gar nicht um die Frage, ob die Variable normalverteilt ist. Sie interessiert keinen. Zeichne nochmal einen QQ-Plot von den Residuen der Regression. Aber auch da kommt es bei n>1000 nicht so drauf an.


LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

folgende User möchten sich bei bele bedanken:
Blech

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste