Woher weiß ich, wie meine Daten verteilt sind?

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon hamschda » Mo 19. Jan 2015, 17:29

Hallo,
ich möchte unter anderem eine Korrelation zwischen zwei Messwerten herausfinden.
Nun müsste ich wissen, wie meine Daten verteilt sind. Ein Test auf Normalverteilung verlief negativ. doch woher weiß ich nun, wie sie dann verteilt sind? Bin leider nicht so der Statistik-Crack :( Generell arbeite ich mit R.

Meine Daten sehen so aus: 30 Tiere wurden auf zwei Verhaltensweisen untersucht. Nun ist die Frage, ob ein Tier, das bei der einen Verhaltensweise schnell ist, auch bei der anderen Verhaltensweise schnell ist. Beide Verhaltensweise werden per count data erhoben; es wird gezählt wie oft ein Tier in einer bestimmten Zeit etwas gemacht hat bzw wie oft ein Tier zurück zu einem leeren Futternapf ist.

Hoffe meine Frage ist einigermaßen klar..

Vielen Dank schon mal! :)
hamschda
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 19. Jan 2015, 17:18
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon strukturmarionette » Mo 19. Jan 2015, 18:05

Hi,

Nun müsste ich wissen, wie meine Daten verteilt sind.


Du könntest Dir zunächst ein (bzw. 2) Histogramm(e) malen lassen.
Das müsste auch per 'R' zu machen sein.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon bele » Mo 19. Jan 2015, 23:39

Zähldaten in zwei Gruppen? Da hätte ich jetzt eher an einen Mosaic Plot als an Histogramme gedacht. Histogramme sind eher für kontinuierliche Daten gedacht.
Mosaic Plots in R sind kein Problem.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon PonderStibbons » Di 20. Jan 2015, 00:20

Meine Daten sehen so aus: 30 Tiere wurden auf zwei Verhaltensweisen untersucht. Nun ist die Frage, ob ein Tier, das bei der einen Verhaltensweise schnell ist, auch bei der anderen Verhaltensweise schnell ist. Beide Verhaltensweise werden per count data erhoben;

Spearman-Rangkorrelation zwischen Verhaltensweise 1 und Verhaltensweise 2, n=30.
Zur Visualisierung x-y-Streudiagramm.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon bele » Di 20. Jan 2015, 08:38

Hallo Hamschda,

jetzt zeigt sich folgendes: Drei Leute, die sich über die Bedeutung der verschiedenen Plot einig sind, haben Dir drei Vorschläge gemacht, die nicht wirklich zusammen passen. Das bedeutet wohl, dass wir drei verschiedenes aus Deiner Problembeschreibung gezogen haben. Bitte erkläre doch nochmal ausführlich, was Du machst, in welcher Form Du Daten erhebst und was Du am Ende wissen willst.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon PonderStibbons » Di 20. Jan 2015, 10:21

Ja, stimmt. Es werden auch unterschiedliche Fragen gestellt:
ich möchte unter anderem eine Korrelation zwischen zwei Messwerten herausfinden.

Nun müsste ich wissen, wie meine Daten verteilt sind.


Wobei sich fragt, wozu das gewußt werden muss.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon bele » Di 20. Jan 2015, 10:54

Hi,

also ich hatte es so verstanden, dass am Schluss eine Tabelle von Zählwerten wie die folgende heraus kommt:
Code: Alles auswählen
                        etwas gemacht
                 |  0-3x  |  4-6x  |  >6x
            -----+--------+--------+--------     
Futternapf  0-3x |    5   |    2   |   1
aufgesucht       +--------+--------+--------
            4-6x |    2   |    8   |   3
                 +--------+--------+--------
             >6x |    1   |    3   |   5

und dass er die visualisieren will. Das könnte man in R wie folgt anfangen:
Code: Alles auswählen
library(vcd)
counts <- matrix(c(5,2,1, 2,8,3, 1,3,5), nrow=3)
dimnames(counts)=list(c("0-3x","4-6x",">6x"),c("0-3x","4-6x",">6x"))
mosaic(counts)

Alternativ wäre das auch eine Gelegenheit für einen sunflower plot oder einen balloon plot.
Spearman wäre dann das gebotene Korrelationsmaß. Mal sehen, wie Hamschda auflöst.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon hamschda » Di 20. Jan 2015, 13:16

Hallo,
wow, erstmal vielen Dank für die vielen Antworten!
jetzt wo ich so drüber lese fällt mir auch auf, dass ich gestern im Eifer der Verzweiflung nicht so recht erklärt hab was eigentlich los ist. Sorry:)

also, eine Tabelle wie von bele beschrieben kommt in der Art nicht raus, sondern ich bekomme für jedes Tier zwei Werte: die Anzahl der Futterbesuche, und grob gesagt die Anzahl der Landungen auf einem Baum. zb:
Vogel ID Futterbesuche Anzahl Landungen
1 5 20
2 16 0

Ich habe es auch erst mittels Spearman Rank Korrelation gemacht, doch nun soll ich noch mehr Faktoren (Alter, Geschlecht, Gewicht, ob das Tier an Tag 1 den Versuch gemacht hat oder erstmal 4 Tage im Labor saß etc) miteinbeziehen und entweder noch ein Modell (zb GLM) beschreiben oder / und es noch mit mixed-effect models beschreiben. Leider hab ich noch nie etwas mit mixed effect models gemacht und bisher auch ziemlich planlos. Meine Betreuerin meinte nun, dass ich dafür verschiedene Schritte abarbeiten soll.
Schritt 1: Schauen wie meine Daten verteilt sind :D
2: eine Tabelle für Spearman Rank Korr. raussuchen und schauen, was die maximale Korrelation sein kann auf Grund meiner sample size (das hab ich hinbekommen ;) nämlich 0.3061 bei einer 0.05 Wahrscheinlichkeit und 30 Tieren. Ich versteh das jetzt so, dass der Korrelationskoeffizient bei 30 Tieren gar nicht höher als 0.3061 werden kann. Allerdings "weiß" R das ja auch und bezieht das in die Signifikanzberechnung mit ein, oder?)
3: schauen, was die repeatabilities meiner beiden Verhaltensweisen sind. Die eine hab ich aus der Literatur ( da die Daten für die Landungen in meinem eigenen Versuch pro Vogel nur einmal erhoben wurden), für die Futterbesuche muss ich das irgendwie aus meinen Daten rausbekommen.
4: dann erst die Korrelationen machen

Wieso ich für die Korrelation an sich die Verteilung wissen muss erschließt sich mir auch nicht, wenn ich jetzt nachdem ich eine Nacht darüber geschlafen haben darüber nachdenke. Ich vermute, sie hat evtl dabei schon einen Schritt weiter an die Modelle gedacht?


Liebe Grüße,
hamschda
hamschda
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 19. Jan 2015, 17:18
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon PonderStibbons » Di 20. Jan 2015, 14:23

2: eine Tabelle für Spearman Rank Korr. raussuchen und schauen, was die maximale Korrelation sein kann auf Grund meiner sample size (das hab ich hinbekommen ;) nämlich 0.3061 bei einer 0.05 Wahrscheinlichkeit und 30 Tieren. Ich versteh das jetzt so, dass der Korrelationskoeffizient bei 30 Tieren gar nicht höher als 0.3061 werden kann. Allerdings "weiß" R das ja auch und bezieht das in die Signifikanzberechnung mit ein, oder?)

Das ist vermutlich der Wert von rho, bei dem im Fall
einer Stichprobengröße n=30 ein p < 0,05 erreicht
wird. Der maximale Wert von rho ist es nicht, rho
kann von -1 bis +1 gehen.
I
3: schauen, was die repeatabilities meiner beiden Verhaltensweisen sind. Die eine hab ich aus der Literatur ( da die Daten für die Landungen in meinem eigenen Versuch pro Vogel nur einmal erhoben wurden), für die Futterbesuche muss ich das irgendwie aus meinen Daten rausbekommen.
4: dann erst die Korrelationen machen

Leider verstehe ich nicht so recht, was Deine Betreuerin
im Sinn hat. Was auch folgerichtig ist, das läuft jetzt gerade
ein bißchen so wie beim Spiel "stille Post". Du hast, glaube ich,
das eigentliche Thema und Studienziel und die Fragestellung
auch noch nicht geschildert.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

Re: Woher weiß ich, wie meine Daten verteilt sind?

Beitragvon bele » Di 20. Jan 2015, 17:54

Hallo Hamschda,

PonderStibbons hat (wie immer) Recht mit der Anmerkung, dass das hier ein wenig an das Spiel Stille Post gemahnt. Trotzdem noch eine Idee zu dem jetzt geschilderten:

hamschda hat geschrieben:Wieso ich für die Korrelation an sich die Verteilung wissen muss erschließt sich mir auch nicht, wenn ich jetzt nachdem ich eine Nacht darüber geschlafen haben darüber nachdenke. Ich vermute, sie hat evtl dabei schon einen Schritt weiter an die Modelle gedacht?


Ja, um die Korrelation ging es eher nicht. Wenn ein GLM für Zähldaten geplant ist, denkt man zunächst einmal an eine Poisson-Regression. Man müsste aber auch an Overdispersion oder an Zero-Inflated Modelle denken und dafür ist es sicher nicht verkehrt, sich mit der Verteilung der Daten in den beiden Beobachtungsspalten zu beschäftigen.
Dazu wäre dann ein "Quasi-Histogramm" mit Darstellung der Häufigkeiten der einzelnen Werte mit eingezeichneter Poisson-Verteilung sinnvoll und ein qqplot der die Anpassung an eine Poisson-Verteilung darstellt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Nächste

Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste