Seite 1 von 2

Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Mo 19. Jan 2015, 17:29
von hamschda
Hallo,
ich möchte unter anderem eine Korrelation zwischen zwei Messwerten herausfinden.
Nun müsste ich wissen, wie meine Daten verteilt sind. Ein Test auf Normalverteilung verlief negativ. doch woher weiß ich nun, wie sie dann verteilt sind? Bin leider nicht so der Statistik-Crack :( Generell arbeite ich mit R.

Meine Daten sehen so aus: 30 Tiere wurden auf zwei Verhaltensweisen untersucht. Nun ist die Frage, ob ein Tier, das bei der einen Verhaltensweise schnell ist, auch bei der anderen Verhaltensweise schnell ist. Beide Verhaltensweise werden per count data erhoben; es wird gezählt wie oft ein Tier in einer bestimmten Zeit etwas gemacht hat bzw wie oft ein Tier zurück zu einem leeren Futternapf ist.

Hoffe meine Frage ist einigermaßen klar..

Vielen Dank schon mal! :)

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Mo 19. Jan 2015, 18:05
von strukturmarionette
Hi,

Nun müsste ich wissen, wie meine Daten verteilt sind.


Du könntest Dir zunächst ein (bzw. 2) Histogramm(e) malen lassen.
Das müsste auch per 'R' zu machen sein.

Gruß
S.

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Mo 19. Jan 2015, 23:39
von bele
Zähldaten in zwei Gruppen? Da hätte ich jetzt eher an einen Mosaic Plot als an Histogramme gedacht. Histogramme sind eher für kontinuierliche Daten gedacht.
Mosaic Plots in R sind kein Problem.

LG,
Bernhard

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 00:20
von PonderStibbons
Meine Daten sehen so aus: 30 Tiere wurden auf zwei Verhaltensweisen untersucht. Nun ist die Frage, ob ein Tier, das bei der einen Verhaltensweise schnell ist, auch bei der anderen Verhaltensweise schnell ist. Beide Verhaltensweise werden per count data erhoben;

Spearman-Rangkorrelation zwischen Verhaltensweise 1 und Verhaltensweise 2, n=30.
Zur Visualisierung x-y-Streudiagramm.

Mit freundlichen Grüßen

P.

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 08:38
von bele
Hallo Hamschda,

jetzt zeigt sich folgendes: Drei Leute, die sich über die Bedeutung der verschiedenen Plot einig sind, haben Dir drei Vorschläge gemacht, die nicht wirklich zusammen passen. Das bedeutet wohl, dass wir drei verschiedenes aus Deiner Problembeschreibung gezogen haben. Bitte erkläre doch nochmal ausführlich, was Du machst, in welcher Form Du Daten erhebst und was Du am Ende wissen willst.

LG,
Bernhard

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 10:21
von PonderStibbons
Ja, stimmt. Es werden auch unterschiedliche Fragen gestellt:
ich möchte unter anderem eine Korrelation zwischen zwei Messwerten herausfinden.

Nun müsste ich wissen, wie meine Daten verteilt sind.


Wobei sich fragt, wozu das gewußt werden muss.

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 10:54
von bele
Hi,

also ich hatte es so verstanden, dass am Schluss eine Tabelle von Zählwerten wie die folgende heraus kommt:
Code: Alles auswählen
                        etwas gemacht
                 |  0-3x  |  4-6x  |  >6x
            -----+--------+--------+--------     
Futternapf  0-3x |    5   |    2   |   1
aufgesucht       +--------+--------+--------
            4-6x |    2   |    8   |   3
                 +--------+--------+--------
             >6x |    1   |    3   |   5

und dass er die visualisieren will. Das könnte man in R wie folgt anfangen:
Code: Alles auswählen
library(vcd)
counts <- matrix(c(5,2,1, 2,8,3, 1,3,5), nrow=3)
dimnames(counts)=list(c("0-3x","4-6x",">6x"),c("0-3x","4-6x",">6x"))
mosaic(counts)

Alternativ wäre das auch eine Gelegenheit für einen sunflower plot oder einen balloon plot.
Spearman wäre dann das gebotene Korrelationsmaß. Mal sehen, wie Hamschda auflöst.

LG,
Bernhard

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 13:16
von hamschda
Hallo,
wow, erstmal vielen Dank für die vielen Antworten!
jetzt wo ich so drüber lese fällt mir auch auf, dass ich gestern im Eifer der Verzweiflung nicht so recht erklärt hab was eigentlich los ist. Sorry:)

also, eine Tabelle wie von bele beschrieben kommt in der Art nicht raus, sondern ich bekomme für jedes Tier zwei Werte: die Anzahl der Futterbesuche, und grob gesagt die Anzahl der Landungen auf einem Baum. zb:
Vogel ID Futterbesuche Anzahl Landungen
1 5 20
2 16 0

Ich habe es auch erst mittels Spearman Rank Korrelation gemacht, doch nun soll ich noch mehr Faktoren (Alter, Geschlecht, Gewicht, ob das Tier an Tag 1 den Versuch gemacht hat oder erstmal 4 Tage im Labor saß etc) miteinbeziehen und entweder noch ein Modell (zb GLM) beschreiben oder / und es noch mit mixed-effect models beschreiben. Leider hab ich noch nie etwas mit mixed effect models gemacht und bisher auch ziemlich planlos. Meine Betreuerin meinte nun, dass ich dafür verschiedene Schritte abarbeiten soll.
Schritt 1: Schauen wie meine Daten verteilt sind :D
2: eine Tabelle für Spearman Rank Korr. raussuchen und schauen, was die maximale Korrelation sein kann auf Grund meiner sample size (das hab ich hinbekommen ;) nämlich 0.3061 bei einer 0.05 Wahrscheinlichkeit und 30 Tieren. Ich versteh das jetzt so, dass der Korrelationskoeffizient bei 30 Tieren gar nicht höher als 0.3061 werden kann. Allerdings "weiß" R das ja auch und bezieht das in die Signifikanzberechnung mit ein, oder?)
3: schauen, was die repeatabilities meiner beiden Verhaltensweisen sind. Die eine hab ich aus der Literatur ( da die Daten für die Landungen in meinem eigenen Versuch pro Vogel nur einmal erhoben wurden), für die Futterbesuche muss ich das irgendwie aus meinen Daten rausbekommen.
4: dann erst die Korrelationen machen

Wieso ich für die Korrelation an sich die Verteilung wissen muss erschließt sich mir auch nicht, wenn ich jetzt nachdem ich eine Nacht darüber geschlafen haben darüber nachdenke. Ich vermute, sie hat evtl dabei schon einen Schritt weiter an die Modelle gedacht?


Liebe Grüße,
hamschda

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 14:23
von PonderStibbons
2: eine Tabelle für Spearman Rank Korr. raussuchen und schauen, was die maximale Korrelation sein kann auf Grund meiner sample size (das hab ich hinbekommen ;) nämlich 0.3061 bei einer 0.05 Wahrscheinlichkeit und 30 Tieren. Ich versteh das jetzt so, dass der Korrelationskoeffizient bei 30 Tieren gar nicht höher als 0.3061 werden kann. Allerdings "weiß" R das ja auch und bezieht das in die Signifikanzberechnung mit ein, oder?)

Das ist vermutlich der Wert von rho, bei dem im Fall
einer Stichprobengröße n=30 ein p < 0,05 erreicht
wird. Der maximale Wert von rho ist es nicht, rho
kann von -1 bis +1 gehen.
I
3: schauen, was die repeatabilities meiner beiden Verhaltensweisen sind. Die eine hab ich aus der Literatur ( da die Daten für die Landungen in meinem eigenen Versuch pro Vogel nur einmal erhoben wurden), für die Futterbesuche muss ich das irgendwie aus meinen Daten rausbekommen.
4: dann erst die Korrelationen machen

Leider verstehe ich nicht so recht, was Deine Betreuerin
im Sinn hat. Was auch folgerichtig ist, das läuft jetzt gerade
ein bißchen so wie beim Spiel "stille Post". Du hast, glaube ich,
das eigentliche Thema und Studienziel und die Fragestellung
auch noch nicht geschildert.

Mit freundlichen Grüßen

P.

Re: Woher weiß ich, wie meine Daten verteilt sind?

BeitragVerfasst: Di 20. Jan 2015, 17:54
von bele
Hallo Hamschda,

PonderStibbons hat (wie immer) Recht mit der Anmerkung, dass das hier ein wenig an das Spiel Stille Post gemahnt. Trotzdem noch eine Idee zu dem jetzt geschilderten:

hamschda hat geschrieben:Wieso ich für die Korrelation an sich die Verteilung wissen muss erschließt sich mir auch nicht, wenn ich jetzt nachdem ich eine Nacht darüber geschlafen haben darüber nachdenke. Ich vermute, sie hat evtl dabei schon einen Schritt weiter an die Modelle gedacht?


Ja, um die Korrelation ging es eher nicht. Wenn ein GLM für Zähldaten geplant ist, denkt man zunächst einmal an eine Poisson-Regression. Man müsste aber auch an Overdispersion oder an Zero-Inflated Modelle denken und dafür ist es sicher nicht verkehrt, sich mit der Verteilung der Daten in den beiden Beobachtungsspalten zu beschäftigen.
Dazu wäre dann ein "Quasi-Histogramm" mit Darstellung der Häufigkeiten der einzelnen Werte mit eingezeichneter Poisson-Verteilung sinnvoll und ein qqplot der die Anpassung an eine Poisson-Verteilung darstellt.

LG,
Bernhard