Problem bei Korrelationsuntersuchung

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Problem bei Korrelationsuntersuchung

Beitragvon Danielo » Mi 14. Aug 2013, 15:00

Hallo an alle, habe gerade ein Problem bzw. ein Ergebnis bei den Korrelationen wo ich nicht weiß wie weitermachen soll bzw. wie ich das interpretieren kann. Bin gerade sehr am Verzweifeln, da ich nicht mehr viel Zeit für die Abgabe einer Abschlussarbeit habe und wäre von daher sehr dankbar über jede Hilfe.
Ich möchte für eine Forumsseite untersuchen, ob es einen Zusammenhang zwischen der Aufrufhäufigkeit und der Änderungshäufigkeit der Forumsseiten gibt. Also habe ich für jede Forumsseite einzeln für jeden Monat die Aufrufhäufigkeit mit der der Änderungshäufigkeit gegenübergestellt. Für keine dieser Seiten ergab das einen starken Korrelationskoeffizienten.
Dann habe ich den Mittelwert dieser Koeffizienten berechnet, aber irgendwo dann gelesen, dass das keine zuverlässige Operation ist.
Daraufhin habe ich von allen Forumsseiten die Gegenüberstellung von Aufrufhäufigkeit und Änderungshäufigkeit in ein Diagramm gesteckt und davon den Korrelationskoeffizienten berechnet und siehe da, es ist ein linearer Zusammenhang vorhanden!
Der Grund dafür ist, dass im Steudiagramm mehrere Punktewolken zu sehen sind, welche auf einer Art Gerade liegen. Aber nur die verschiedenen Punktewolken zusammen tun dies. Betrachtet man eine einzelne ist kein linearer Zusammenhang zu sehen. Jetzt weiß ich nicht, wie ich dieses Ergebnis interpretieren soll....
Was ist jetzt das richtige Ergebnis? Gibt es eine Korrelation zwischen der Lesehäufigkeit und der Änderungshäufigkeit oder nicht??
Habe auch irgendwo mal gelesen, dass bei ungleicher Verteilung einer Zufallsvariable eine Standardisierung vorgenommen werden sollte. Könnte das eventuell was bringen?

Beste Grüße
Danielo
Mitglied
Mitglied
 
Beiträge: 20
Registriert: So 21. Jul 2013, 13:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Problem bei Korrelationsuntersuchung

Beitragvon bele » Mi 14. Aug 2013, 15:42

Das hört sich so an, als läge der Zusammenhang nicht auf der Ebene der Seiten eines Forums, wohl aber zwischen den Foren. Wenn ein Forum viele aktive Teilnehmer hat, dann werden viele Seiten aufgerufen und es werden viele Seiten geändert. Handelt es sich aber um ein verschlafenes Forum, in dem nix passiert, dann gibt es in diesem Forum weniger Aufrufe und wenige Änderungen.
Klingt irgendie banal, oder? Erklärt aber den Zusammenhang in Deiner "Alles zusammengeschmissen"-Analyse.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5944
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

Re: Problem bei Korrelationsuntersuchung

Beitragvon Danielo » Mi 14. Aug 2013, 16:38

Okay, danke für die Antwort. Würde denn eine Standardiserung etwas bringen, um die verschiedenen Verteilungen der einzelnen Foren überhaupt miteinander vergleichen zu können?
Danielo
Mitglied
Mitglied
 
Beiträge: 20
Registriert: So 21. Jul 2013, 13:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Problem bei Korrelationsuntersuchung

Beitragvon bele » Mi 14. Aug 2013, 21:04

Wenn Du unterschiedliche Korrelationskoeffizienten miteinander vergleichen willst, dann such mal nach und lies über die Fisher-Transformation oder Fishers z
http://davidmlane.com/hyperstat/A50760.html
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5944
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

Re: Problem bei Korrelationsuntersuchung

Beitragvon Danielo » Do 15. Aug 2013, 09:02

hi, sorry, aber ich bin kein Statistiker und muss nochmal etwas fragen.
Wie gesagt, ich habe quasi ein Steudiagramm mit verschiedenen Punktewolken für die einzelnen Forumsseiten, weil diese einfach unterschiedlich verteilt sind. Von meinem Professor kam nun der Rat, dass ich ich jede dieser Forumsseite standardisieren soll mit der Z-Transformation und dann zusammenwerfen soll. Er meinte wohl, dass dies dazu führen würde, dass man die verschiedenen Punktewolken damit zentralisieren würde und daraus einen Korrelationskoeffizienten berechnen könne, womit sich auch ein Signifikanztest durchführen lässt. Nun gibst du mir den Tipp mit Fisher's Z-Transformation, der dazu dient die einzelnen Korrelationskoeffizienten miteinander zu vergleichen. Es wird also erst der Korrelationskoeffizient berechnet und anschließend diese Z-Transformation nach Fisher durchgeführt. Jetzt frage ich mich, welcher dieser beiden Ansätze der richtige ist. Oder laufen beide auf das Gleiche hinaus?
Danielo
Mitglied
Mitglied
 
Beiträge: 20
Registriert: So 21. Jul 2013, 13:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Problem bei Korrelationsuntersuchung

Beitragvon bele » Do 15. Aug 2013, 10:32

Hallo Danielo,

ich hoffe, es meldet sich noch jemand mit tieferem Verständnis der Statistik als ich. Das Irrtumspotenzial ist groß, weil eine z-Transformation der Werte und eine Fisher z-Transformation der Korrelationskoeffzienten ähnlich klingen aber nicht dasselbe sind. Die Klugheit rät, den Anweisungen des eigenen Profs zu folgen. Aber wie gesagt: Vielleicht kommt von anderen mehr als von mir.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5944
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

Re: Problem bei Korrelationsuntersuchung

Beitragvon Danielo » Do 15. Aug 2013, 12:06

okay, vielen Dank für deine Hilfe. Ist denn irgendjemand hier im Forum, der dieses tiefe Verständnis der Statistik besitzt? :) Ich sitze gerade echt auf dem Schlauch und wäre daher über jede Hilfe sehr dankbar
Danielo
Mitglied
Mitglied
 
Beiträge: 20
Registriert: So 21. Jul 2013, 13:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Problem bei Korrelationsuntersuchung

Beitragvon Cadee » Do 15. Aug 2013, 17:38

Hallo auch,

ich kann mir nicht vorstellen, wie du auf Ebenen der Einzelseiten keinen Zusammenhang findest. Bist du sicher, dass du da keinen Zusammenhang findest? Wie groß sind denn die Korrelationen? Denn das was du da untersuchst ist eigentlich trivial. Es MUSS einen positiven Zusammenhang zwischen Aufrufhäufigkeit und Veränderungshäufigkeit geben: Nicht jeder, der eine Seite aufruft, ändert auch etwas, ABER jeder der etwas auf der Seite verändert hat, MUSS die Seite aufgerufen haben! Daher MUSST du auch einen Zusammenhang finden.
Oder verstehe ich hier gerade etwas komplett falsch?!

Dann habe ich den Mittelwert dieser Koeffizienten berechnet, aber irgendwo dann gelesen, dass das keine zuverlässige Operation ist.

Das hast du richtig gelesen, da die Korrelation nicht metrisch skaliert sind. Nicht metrisch heißt: Der Unterschied zwischen r = .5 und .4 ist nicht derselbe wie zwischen r = .8 und .9. Das heißt, du darfst kein Minus rechnen und nicht geteilt nehmen (so wie man das aber bei einem Mittelwert macht). Aber, wie der Bernhard bereits richtig gesagt hatte, kann man die Korrelationskoeffizienten nach Fisher "Fisher'z-"transformieren. Diese Werte sind wieder metrisch.

Daraufhin habe ich von allen Forumsseiten die Gegenüberstellung von Aufrufhäufigkeit und Änderungshäufigkeit in ein Diagramm gesteckt und davon den Korrelationskoeffizienten berechnet und siehe da, es ist ein linearer Zusammenhang vorhanden!

Du hast sie worein gepackt? In ein Diagramm? Diagramm = Abbildung. Meinst du einfach damit, dass du schlichtweg alle Daten zusammengefügt hast? Also jetzt nur noch eine Spalte "Aufrufhäufigkeit" und eine Spalte "Veränderung"? Klingt so, als wärst du also an den Zusammenhang zwischen alle Seiten interessiert, richtig? Dann hast du es auf jeden Fall richtig gemacht.

Wenn ein Forum viele aktive Teilnehmer hat, dann werden viele Seiten aufgerufen und es werden viele Seiten geändert. Handelt es sich aber um ein verschlafenes Forum, in dem nix passiert, dann gibt es in diesem Forum weniger Aufrufe und wenige Änderungen.
Klingt irgendie banal, oder? Erklärt aber den Zusammenhang in Deiner "Alles zusammengeschmissen"-Analyse.

Hm...
Positiver Zusammenhang bedeuten inhaltlich: Je höher die Seitenaufrufe, desto häufiger werden die Seiten verändert.
ABER es bedeutet auch: Je niedriger die Seitenaufrufe, desto seltener werden die Seiten verändert.
Wenn das vorliegt, haben wir einen positiven Zusammenhang. Es zählt die allgemeine Richtung: Die Richtung, in der die Werte der einen Variablen gehen, ist dieselbe, wie die der anderen Variable.
Ich glaube damit ist aber die Erklärung von Bernhard hinfällig, oder?
Ich denke viel eher, dass es daran liegt, dass der Aspekt, dass der Seitenaufruf als Bedingung für die Seitenänderung dient, über die Menge an Daten schlichtweg deutlicher hervortritt (siehe das, was ich oben geschrieben habe).

Okay, danke für die Antwort. Würde denn eine Standardiserung etwas bringen, um die verschiedenen Verteilungen der einzelnen Foren überhaupt miteinander vergleichen zu können?

Was genau willst du denn da standardisieren? Inhaltlich ist ein Seitenaufruf für Forum A genau so ein Seitenaufruf wie für Forum B. Eine Standardisierung ergibt nur Sinn, wenn die Maßeinheiten zweier Variablen unterschiedlich sind! Ein Beispiel: Ein Mathetest hat als Note 1 bis 6. Ein anderer Mathetest hat die Noten 1 bis 15. Du wirst hier die Werte der einzelnen Probanden nicht ohne Weiteres vergleichenkönnen, daher würde man hier standardisieren. Die Maßeinheiten bei dir sind aber für alle Foren doch wahrscheinlich dieselbe oder misst du die Häufigkeiten unterschiedlich? :)
Wenn du denn unbedingt die Korrelationen miteinander vergleichen möchtest, dann google mal nach "Korrelationen vergleichen". Wenn du davon ausgehst, dass der User, der für den Seitenaufruf von Forum A auch für den Seitenaufruf von Forum B verantwortlich ist, dann hast du eine abhängige Stichprobe: "Korrelationen vergleichen abhängige Daten". Wenn du glaubst die Seitenaufrufe von Forum A und B werden von unterschiedlichen Usern verursacht, dann hast du eine unabhängige Stichprobe: "Korrelationen vergleichen unabhängige Daten". Mit etwas Glück musst du da nichts per Hand rechnen, sondern findest Seiten, auf denen du deine Parameter nur eingeben musst und fertig ist der Lachs.
Kleine Anmerkung noch: Es ist eigentlich nur sinnvoll Korrelationen miteinander zu vergleichen, die signifikant von Null verschieden sind.


Viele Grüße
Cadee
Mitglied
Mitglied
 
Beiträge: 23
Registriert: Sa 12. Mai 2012, 16:26
Danke gegeben: 0
Danke bekommen: 5 mal in 5 Posts

Re: Problem bei Korrelationsuntersuchung

Beitragvon Danielo » Do 15. Aug 2013, 20:41

Hi Cadee, vielen Dank erstmal für deine Antwort
ich kann mir nicht vorstellen, wie du auf Ebenen der Einzelseiten keinen Zusammenhang findest. Bist du sicher, dass du da keinen Zusammenhang findest? Wie groß sind denn die Korrelationen? Denn das was du da untersuchst ist eigentlich trivial. Es MUSS einen positiven Zusammenhang zwischen Aufrufhäufigkeit und Veränderungshäufigkeit geben: Nicht jeder, der eine Seite aufruft, ändert auch etwas, ABER jeder der etwas auf der Seite verändert hat, MUSS die Seite aufgerufen haben! Daher MUSST du auch einen Zusammenhang finden.
Oder verstehe ich hier gerade etwas komplett falsch?!

Es ist so, dass es sehr viele Aufrufe auf dem Forum gibt, aber nur sehr wenige die Änderungen vornehmen. Der Anteil der Änderungen durchführt ist so schwindend klein, dass das kaum einen Einfluss auf die gesamten (sehr vielen) Aufrufe.
Du hast sie worein gepackt? In ein Diagramm? Diagramm = Abbildung. Meinst du einfach damit, dass du schlichtweg alle Daten zusammengefügt hast? Also jetzt nur noch eine Spalte "Aufrufhäufigkeit" und eine Spalte "Veränderung"? Klingt so, als wärst du also an den Zusammenhang zwischen alle Seiten interessiert, richtig? Dann hast du es auf jeden Fall richtig gemacht.
Ja genau so meinte ich es. Habe sie zusammengepackt und dann geplottet. Ich bin daran interessiert, ob innerhalb einer Forumsseite mit eine Zunehmende Aufrufhäufigkeit auch zu einer zunehmenden Änderungshäufigkeit führt. Daher dachte ich mir, dass ich die Aufrufe und Änderungen der jeweiligen Seiten innerhalb eines Monets zusammentue. Weil was bringt mir es denn den Korrelationskoeffizienten von nur einer Seite zu berechnen?
Was genau willst du denn da standardisieren? Inhaltlich ist ein Seitenaufruf für Forum A genau so ein Seitenaufruf wie für Forum B. Eine Standardisierung ergibt nur Sinn, wenn die Maßeinheiten zweier Variablen unterschiedlich sind! Ein Beispiel: Ein Mathetest hat als Note 1 bis 6. Ein anderer Mathetest hat die Noten 1 bis 15. Du wirst hier die Werte der einzelnen Probanden nicht ohne Weiteres vergleichenkönnen, daher würde man hier standardisieren. Die Maßeinheiten bei dir sind aber für alle Foren doch wahrscheinlich dieselbe oder misst du die Häufigkeiten unterschiedlich? :)
Wenn du denn unbedingt die Korrelationen miteinander vergleichen möchtest, dann google mal nach "Korrelationen vergleichen". Wenn du davon ausgehst, dass der User, der für den Seitenaufruf von Forum A auch für den Seitenaufruf von Forum B verantwortlich ist, dann hast du eine abhängige Stichprobe: "Korrelationen vergleichen abhängige Daten". Wenn du glaubst die Seitenaufrufe von Forum A und B werden von unterschiedlichen Usern verursacht, dann hast du eine unabhängige Stichprobe: "Korrelationen vergleichen unabhängige Daten". Mit etwas Glück musst du da nichts per Hand rechnen, sondern findest Seiten, auf denen du deine Parameter nur eingeben musst und fertig ist der Lachs.
Kleine Anmerkung noch: Es ist eigentlich nur sinnvoll Korrelationen miteinander zu vergleichen, die signifikant von Null verschieden sind.

Die Sache ist halt, dass die verschiedenen Forumsseiten, die ich zusammengepackt haben zu sehr voneinander ausarten. Es gibt eine Forumsseite A, die 100 Aufrufe und eine Editierung hat und es gibt eine Forumsseite B, die 100000 Aufrufe hat und 1000 mal geändert wird im Durchschnitt. Bei beiden ist monatlich keine Korrelation zu erkennen. Das heißt wenn ich für die Seiten einzeln den Korrelationskoeffizient berechne, so ist kein Zusammenhang zu erkennen. Packe ich die dagegen zusammen, zeigt er mir aber einen hohen Korrelationskoeffizienten an. Das ist klar, da die beiden verschiedenen Punktewolken auf einer Geraden liegen. Jetzt dachte ich mir, dass ich die einzelnen Forumsseiten erst einzeln standardisiere und dann zusammenpacke, damit ich die verschiedenen Punktewolken quasi zu einer zusammentue. Macht das Sinn?
Wieso macht es nur Sinn Korrelationen zu vergleichen die signifikant von null verschiedenen sind?
Danielo
Mitglied
Mitglied
 
Beiträge: 20
Registriert: So 21. Jul 2013, 13:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Problem bei Korrelationsuntersuchung

Beitragvon Cadee » Fr 16. Aug 2013, 13:58

Es ist so, dass es sehr viele Aufrufe auf dem Forum gibt, aber nur sehr wenige die Änderungen vornehmen. Der Anteil der Änderungen durchführt ist so schwindend klein, dass das kaum einen Einfluss auf die gesamten (sehr vielen) Aufrufe.

Ändert nichts an der Tatsache, dass ein Seitenaufruf erfolgt haben MUSS, um die Seite zu verändern. Das ist genau so, als würdest du den Zusammenhang zwischen Höhe des Gehalts und Höhe des Geldausgebens untersuchen wollen. Man muss Geld verdienen können, um es auszugeben. Man muss die Seite aufgerufen haben, um sie zu verändern. Eine Korrelation ist hier eigentlich Fehl am Platz... Das einzige Sinnvolles was du hier machen könntest ist den relativen Anteil ausrechnen. "Anzahl an Veränderungen" geteilt durch "Seitenaufruf" und dann mit einem Faktor deiner Wahl mal nehmen, damit es anschaulicher wird. Z.B. mal 1.000, dann hast du einen Promillewert.
So könntest du den relativen Anteil zwischen den Seiten miteinander vergleichen. Dann hättest du auch kein Problem mit der unterschiedlichen Anzahl an Seitenaufrufen.

Jetzt dachte ich mir, dass ich die einzelnen Forumsseiten erst einzeln standardisiere und dann zusammenpacke, damit ich die verschiedenen Punktewolken quasi zu einer zusammentue. Macht das Sinn?

Ist nicht zulässig, der Grund: Nehmen wir an du hast Forum A. Mittlere Seitenaufrufe für Forum A = 3.341. Bei der Standardisierung bekäme dieser Wert die 0. Nehmen wir weiter an Forum B hätte gemittelte Seitenaufrufe von = 50. Jetzt bekäme die 50 bei einer Standardisierung den Wert 0. Würdest du alle Daten zusammenpacken hättest du zweimal die 0, die ja aber für völlig andere Werte steht!
Das einzige was du machen dürftest, ist, die Werte standardisieren, NACHDEM du sie zusammengefügt hast. Aber dann hast du nur weniger große Werte, an der Korrelation würde sich inhaltlich nichts ändern (nur der Wert wäre numerisch evtl. etwas anders...).
Das Problem ist, dass du nun einmal ganz große Seiten mit ganz kleinen Seiten vergleichen willst. Entweder du nimmst an, dass man die Seiten gleichwertig miteinander vergleichen kann und du packst sie zusammen (und ärgerst dich nicht über große Unterschiede in den Daten) oder du bildest Kategorien oder du packst die Seiten halt gar nicht zusammen. Die Werte sind halt so, wie sie sind! Da hilft dir keine Transformation.
Wenn du Wenn du Uganda mit den USA vergleichen willst (welche Variablen auch immer), wirst du auch sehr große Unterschiede zwischen diesen Variablen haben. Da gibt es auch nichts zu transformieren...

Das heißt wenn ich für die Seiten einzeln den Korrelationskoeffizient berechne, so ist kein Zusammenhang zu erkennen. Packe ich die dagegen zusammen, zeigt er mir aber einen hohen Korrelationskoeffizienten an. Das ist klar, da die beiden verschiedenen Punktewolken auf einer Geraden liegen.

Um eine Korrelation zu finden, brauchst du Varianz in den Daten. Die Daten müssen sich also erst einmal ordentlich voneinander unterscheiden, um ermitteln zu können, in welche Richtung sie streuen. Von daher ist kein Ergebnis nicht verwunderlich. Nehmen wir an du möchtest den Zusammenhang zwischen Alter und Gehalt in einer Firma ermitteln. Insgesamt zeigt sich ein großer, positiver Zusammenhang: Je älter, desto mehr verdient man. Jetzt stell dir vor du guckst dir nur die jungen Leute an (die Streuung für Alter ist gering). Junge Leute verdienen typischer Weise immer recht wenig (Streuung für Gehalt ist niedrig). Insgesamt hast du eine geringe Streuung in den Daten! So wirst du auch nur einen gringen Zusammenhang für Alter und Gehalt finden, wenn du nur Junge Leute anguckst. Dasselbe würdest du natürlich finden, wenn du nur ältere Herrschaften analysierst (Streuung Alter ebenfalls gering, nur bessere Gehälter, daher auch für Gehalt niedrige Streuung und daher auch nur Korrelation insgesamt).
Es ist halt so, wie du es auch schon ganz richtig gesagt hattest: Große Seiten haben mehr Möglichkeiten, dass da etwas verändert wird, als kleine Seiten.


Letztendlich ist es eh so, dass dein Betreuer das letztes Wort hat. Mach das, was er dir empfiehlt! (auch wenn es eigentlich falsch ist :P )
Fakt ist jedoch
1) Eine Korrelation ist wirklich quatsch und inhaltlich nicht aussagekräftig
2) Eine Standardisierung oder jede andere Art der Datentransformation, wird dir kaum helfen
3) Wenn du denn unbedingt eine Korrelation haben willst, dann musst du alle Daten nehmen (aber wie gesagt: Siehe Punkt 1 :P )
Cadee
Mitglied
Mitglied
 
Beiträge: 23
Registriert: Sa 12. Mai 2012, 16:26
Danke gegeben: 0
Danke bekommen: 5 mal in 5 Posts

Nächste

Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron