Sind Korrleationen von Korrelationen auch Korrelationen?

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon Iffipiffi » Sa 26. Nov 2022, 21:17

Hallo,

ich habe einen etwas seltsamen Datensatz, bei dem fortlaufend gebildete Teilkorrelationen über jeweils 30-50 Werte nur sehr schwach sind. Wenn ich dann aber hingehe und die vielen Teilkorrelationen als ganzes miteinander korreliere, dann bekomme ich als Ergebnis einen statistisch sehr signifikanten Zusammenhang, der im Bereich 0,8-1 liegt.

Die Frage ist, ob dieses Korrelationskorrelat ebenso aussagekräftig ist, oder ob es sich dabei aufgrund irgendwelcher mathematischer Zusammenhänge um ein zwangsläufiges statistisches Artefakt handelt.

Falls eine Aussagekraft besteht, wie muss ich das dann interpretieren?

Im Voraus Vielen Dank & Grüße!
Iffipiffi
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 26. Nov 2022, 21:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon bele » Sa 26. Nov 2022, 23:53

Hallo Iffipiffi,

mir ist derzeit wirklich noch nicht klar, was Du damit meinst wenn Du sagt, dass Du Teilkorrelationen als Ganzen miteinander korrelierst. Kannst Du das bitte erklären?

Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5748
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1343 mal in 1330 Posts

folgende User möchten sich bei bele bedanken:
Iffipiffi

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon Iffipiffi » So 27. Nov 2022, 16:26

bele hat geschrieben:Hallo Iffipiffi,

mir ist derzeit wirklich noch nicht klar, was Du damit meinst wenn Du sagt, dass Du Teilkorrelationen als Ganzen miteinander korrelierst. Kannst Du das bitte erklären?


Gerne. Hier die ersten Werte meiner Zahlenreihe mit insgesamt etwa 250 Zeilen:

2022-03-21 999,97 7,30
2022-03-22 999,67 7,51
2022-03-23 997,87 7,80
2022-03-24 995,91 8,30
2022-03-25 996,54 7,91
2022-03-26 997,83 8,49
2022-03-27 997,2 9,33
2022-03-28 988,98 10,23
2022-03-29 978,94 9,19
2022-03-30 971,45 4,94

Hier gehe ich jetzt hin und bilde Korrelationen zwischen Spalte 1+2, Spalte 1+3 und Spalte 2+3. Die Korrelationskoeffizienten liegen jeweils zwischen -0,1 und +1.

Nun gehe ich hin und erstelle die Korrelationen nicht mehr über alle 250 Zeilen, sondern immer nur 30 fortlaufende Werte. Daraus ergeben sich drei weitere Spalten für die Tabelle, deren Werte ab dem 15. beginnen und mit dem 235. enden.

Aus diesen fortlaufenden Korrelationskoeffizienten bilde ich nun erneut drei Gesamtkorrelationen für 220 Werte der Spalten 4+5, 4+6 und 5+6. Die Korrelationskoeffizienten sind allesamt im Bereich unter -0,5 oder über +0,5.

Die Frage ist, ob das zählt oder ob aus mathematischen Gründen keine Signifikanz besteht.
Iffipiffi
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 26. Nov 2022, 21:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon bele » So 27. Nov 2022, 16:42

Hallo Iffipiffi,

ich glaube, das sind tatsächlich Artefakte. Du scheinst ein rolling Window zu haben. Also der erste Zeitraum umfasst 30 Werte beginnend am 21. März und der zweite Zeitraum umfasst 30 Werte ab dem 22. März. Diese beiden Zeiträume umfassen zwar je 30 Tage , haben aber 29 Tage und damit 29 Wertetripel gemeinsam. Nehmen wir an, dass in irgendeiner Deiner Zeilen zufallsbedingt sowohl die zweite als auch die dritte Spalte einen ungewöhnlich hohen Wert haben. Dann führt dieser eine hohe Wert als Ausreißer zu einer hohen Korrelation und nicht in einer, sondern in dreißig Deiner rolling-window-Korrelationen. Diese dreißig tragen dann auch dreißig Mal zu Deiner Korrelations-Korrelation bei. Dreißig Mal, ob wohl nur ein Wertepaar zufallsbedingt einen Ausreißerwert hatte.

Momentan fehlt mir die Phantasie mit vorzustellen, wieso eine Korrelation von 220 Korrelationswerten interessant sein sollte aber wenn das wirklich sinnvoll ist, würde ich mich wohler fühlen, wenn die ersten Korrelationen nicht aus überlappenden, sondern aus diskreten Zeiträumen (also Tag 1 bis 30 und dann wieder Tag 31 bis 60 und dann Tag 61 bis 90 usw) berechnet würden. Wie gesagt, alles unter dem Vorbehalt meiner fehlenden Phantasie.

Wenn Du Dich auf meine Vorstellungskraft nicht verlassen möchtest (und das wäre wohl klug) könntest Du Deine merkwürdige Doppelkorrelation ja mal als Simulation mit Zufallszahlen bekannter Verteilung anstelle Deiner Beobachtungswerte ausprobieren.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5748
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1343 mal in 1330 Posts

folgende User möchten sich bei bele bedanken:
Iffipiffi

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon Iffipiffi » So 27. Nov 2022, 18:16

ich glaube, das sind tatsächlich Artefakte. Du scheinst ein rolling Window zu haben. Also der erste Zeitraum umfasst 30 Werte beginnend am 21. März und der zweite Zeitraum umfasst 30 Werte ab dem 22. März. Diese beiden Zeiträume umfassen zwar je 30 Tage , haben aber 29 Tage und damit 29 Wertetripel gemeinsam. Nehmen wir an, dass in irgendeiner Deiner Zeilen zufallsbedingt sowohl die zweite als auch die dritte Spalte einen ungewöhnlich hohen Wert haben


Danke für die Antwort, in etwa so dachte ich mir das auch.

wenn die ersten Korrelationen nicht aus überlappenden, sondern aus diskreten Zeiträumen (also Tag 1 bis 30 und dann wieder Tag 31 bis 60 und dann Tag 61 bis 90 usw) berechnet würden


Leider ist der Datensatz zu klein für eine ausreichende Anzahl diskretre Zeiträume.

Wenn Du Dich auf meine Vorstellungskraft nicht verlassen möchtest (und das wäre wohl klug) könntest Du Deine merkwürdige Doppelkorrelation ja mal als Simulation mit Zufallszahlen bekannter Verteilung anstelle Deiner Beobachtungswerte ausprobieren.


Kannst du mir vielleicht eine Empfehlung geben, welche Verteilung + Zufallszahlen ich nehmen sollte bzw. wo ich selbiges herbekomme? Oder reicht es, drei linerare Zahlenreihen zu nehmen, zB Temperturwerte von drei nahegelegenen Orten und die miteinander korrelier-korrelieren?
Iffipiffi
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 26. Nov 2022, 21:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon Iffipiffi » So 27. Nov 2022, 18:53

Ok, habs jetzt mal mit 3 Temperaturzeitreihen aus relativer Nähe zueinander getestet. Die insg 18k Werte sollten ein robustes Ergebnis sicherstellen. Hier das Ergebnis:

Gesamt: 0,748 0,421 0,447
Fortlaufend: 0,244 0,606 -0,002
Diskret: 0,272 0,545 -0,081

Die Abweichung beim Korrelationskoeffizienten zwischen Fortlaufend und Diskret liegen also bei etwa 5%. Das reicht mir, um das Ergebnis als relevant zu erachten. Wie würdest du das beurteilen?
Iffipiffi
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Sa 26. Nov 2022, 21:11
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Sind Korrleationen von Korrelationen auch Korrelationen?

Beitragvon bele » So 27. Nov 2022, 19:15

Hallo,

Kannst du mir vielleicht eine Empfehlung geben, welche Verteilung + Zufallszahlen ich nehmen sollte bzw. wo ich selbiges herbekomme?


Ich hätte jetzt erstmal an beliebig normalverteilte Zahlenreihen gedacht, oder an normalverteilte Zufallszahlen mit der korrekten Korrelation untereinander. Alternativ auch an die Originalzahlen, bei denen man die Reihenfolge permutiert. Ist immer auch die Frage, welche Software Dir zur Verfügung steht. Ich arbeite gerne mit R, das ist freie Software und damit für jeden Verfügbar. Dort gibt es das Zusatzpaket MASS und dem die Funktion mvrnorm dazu dient, multivariat-normalverteilte Zufallszahlen zu ziehen bei beliebiger Korrelations-/Kovarianzmatrix: https://stat.ethz.ch/R-manual/R-devel/l ... rnorm.html
Damit könnte man beliebig viele solcher Simulationsdurchgänge gestalten (wie man das hinbekommt, dass die erste Spalte immer fortlaufende Daten sind weiß ich auf die Schnelle nicht, ist aber vielleicht auch nicht so wichtig). Permutationen von Spalten lassen sich in R leicht mit dem Befehl sample erstellen. Sich in R einzuarbeiten erfordert allerdings anfangs einen nicht-unerheblichen Aufwand, der hier leicht prohibitiv sein könnte.

Wie würdest du das beurteilen?


Ich beurteile das nicht, da ich zuwenig vom Drumherum weiß. Bei 18 k Daten denke ich auch, dass -0,002 und -0,08 schon ein echter Unterschied ist, aber betragsmäßig zeigt forlaufend zweimal die kleinere, einmal die größere Korrelation. Ich weiß nicht, was das bedeuten soll. Wenn man jetzt mit zufälligen Zahlen oder verwürfelten Zahlen gearbeitet hätte, also solchen ohne echte Korrelationsstruktur, dann wäre es interessant gewesen zu sehen, ob signifikante Ergebnisse entstehen obwohl nur unsystematischer Input da war.

Ich beanspruche aber auch keinen tiefen Einblick in diesen für mich immer noch verwirrenden Rechenweg.

Wenn es für Dich passt, ist es gut.
LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5748
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1343 mal in 1330 Posts


Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast