Korrelation kontinuierliche und kategoriale Variable

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Korrelation kontinuierliche und kategoriale Variable

Beitragvon lisa45602 » Di 28. Nov 2023, 12:07

Ich muss eine Korrelation zwischen der Variable "Selbstvertrauen" (kontinuierlich) und der Variable "Geschlecht" (3 Ausprägungen) berechnen, um zu sehen, ob ich sie als mögliche Kovariate in meine Anova mit aufnehmen muss. Ich muss eine Pearson-Korrelation berechnen. Ich habe den folgenden Code für die Variable "Alter" in R verwendet.

korr1 <- cor.test(filtered_dataset$Alter, filtered_dataset$Selbstvertrauen)
print(korr1)

Ich kann diesen Code jedoch nicht für die Variable "Geschlecht" verwenden, da sie als "as.factor" und nicht als "as.numeric" klassifiziert ist. Müssen für eine Parsons Korrelation beide Variablen intervallskaliert sein? Oder gibt es eine andere Möglichkeit, dies in R zu berechnen?

Vielen Dank!
lisa45602
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Di 28. Nov 2023, 12:02
Danke gegeben: 6
Danke bekommen: 0 mal in 0 Post

Re: Korrelation kontinuierliche und kategoriale Variable

Beitragvon PonderStibbons » Di 28. Nov 2023, 12:31

Ich muss eine Korrelation zwischen der Variable "Selbstvertrauen" (kontinuierlich) und der Variable "Geschlecht" (3 Ausprägungen) berechnen, um zu sehen, ob ich sie als mögliche Kovariate in meine Anova mit aufnehmen muss.

Das sollte man eigentlich nicht von irgendwelchen Vortests abhängig machen, sondern von fachlichen Überlegungen,
Vorwissen und begründeten Annahmen. Vor-Testungen sorgen regelhaft für über-angepasste Modelle mit falschen p-Werten.
Wenn Geschlecht im Allgemeinen relevant ist, nimm es rein, wenn nicht dann nicht.

Davon ab, anhand welcher Kriterien soll denn laut Deinem Auftraggeber bestimmt werden, ob Geschlecht aufgenommen
werden "muss"?

Ich muss eine Pearson-Korrelation berechnen. Ich habe den folgenden Code für die Variable "Alter" in R verwendet.

Eine Pearson-Korrelation kann man allerdings nicht zwischen einer dreistufigen kategorialen und einer intervallskalierten
Variable berechnen.

Müssen für eine Pearsons Korrelation beide Variablen intervallskaliert sein?

Was sagen dazu Deine Quellen?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11269
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2475 mal in 2459 Posts

folgende User möchten sich bei PonderStibbons bedanken:
lisa45602

Re: Korrelation kontinuierliche und kategoriale Variable

Beitragvon bele » Di 28. Nov 2023, 13:36

Hallo Lisa,

lisa45602 hat geschrieben:... um zu sehen, ob ich sie als mögliche Kovariate in meine Anova mit aufnehmen muss.


Vorneweg muss ich erstmal PonderStibbons zustimmen, dass das kein guter Plan ist. Nimm das Geschlecht mit in die ANOVA auf, wenn die Sachlage das nahelegt. Die ANOVA wird Dir schon sagen, ob das Geschlecht relevant ist.

Oder gibt es eine andere Möglichkeit, dies in R zu berechnen?


In der letzten Studie, die ich gerechnet habe, waren unter mehr als zweihundert Teilnehmern nur ein(e) Nicht-Binäre(r). In diesem Fall und für Deinen Verwendungszweck könntest Du überlegen, ob Du die Korrelation einfach ohne die Nicht-binären rechnest.

Ansonsten (wenn Deine Lehrer:innen Dich zwingen, so etwas vor dem Einschluss zu rechnen) ist die Alternative zur Korrelation hier die ANOVA. Die kann Dir sagen, ob verschiedene Geschlechter zu verschieden hohen Werten in einer metrischen Variable führen.

Ich habe mal ein paar Beispieldaten in R simuliert und wenn Du den Code unten Schritt für Schritt in Deiner eigenen R Session ausprobierst, siehst Du, wie ich das angehen würde (wenn überhaupt, siehe oben):

Code: Alles auswählen
# Zunächst ein paar Beispieldaten erfinden
bsp <- data.frame(Alter = runif(100, 20, 80),
                  Geschlecht = sample(c("Frau", "Mann" ,"nicht-binär"),
                                      100, 1, c(.5, .45, .05)),
                  Selbstvertrauen = sample.int(20, 100, 1),
                  stringsAsFactors = TRUE)

# Mal die ersten Zeilen anschauen, wie die Beispieldaten aussehen
head(bsp, 10)

# Und jetzt schauen, in welchem Datenformat die Werte vorliegen
str(bsp)

# Jetzt schauen wir erstmal, wieviele Diverse überhaupt vorkommen (Zufallszahl, wird jedes Mal anders sein)
table(bsp$Geschlecht)

# Jetzt könnten wir eine ANOVA rechnen
aov(Selbstvertrauen ~ Geschlecht, data = bsp) |> summary()




# oder für diesen Teilaspekt nur Männer und Frauen betrachten. Dafür führen wir
# eine neue Datenspalte ein, die das Geschlecht enthält und bei divers ein NA,
# außerdem müssen wir das dann noch in ein Zahlenformat wandeln:
bsp$GeschlechtBinär <-
  as.integer(ifelse(
    bsp$Geschlecht == "nicht-binär",
    yes = NA,
    no = bsp$Geschlecht
  ))
table(bsp$GeschlechtBinär, useNA = "always")

# Pearson-Korrelation mit einer Binären Variable heißt "Punkt-Biseriale Korrelation"
# siehe auch https://de.wikipedia.org/wiki/Punktbiseriale_Korrelation
cor.test(bsp$GeschlechtBinär, bsp$Selbstvertrauen)



LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5781
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

folgende User möchten sich bei bele bedanken:
lisa45602

Re: Korrelation kontinuierliche und kategoriale Variable

Beitragvon lisa45602 » Di 28. Nov 2023, 16:25

Hallo,

vielen Dank euch! Mir wurde aufgetragen die Korrelationen zu berechnen und somit zu bestimmen, ob sie als Kovariaten beachtet werden soll, vielleicht werde ich eure Bedenkungen hierzu noch einmal äußern.

In meiner Studie haben drei Versuchspersonen von insgesamt 192 angegeben nicht binär zu sein. Vielen Dank, Bernhard! Ich habe nun die Punkt-Biseriale Korrelation gerechnet und hoffe, dass es in Ordnung ist, dass ich die nicht-binären Personen für diese Berechnung nicht berücksichtige.
Die Korrelation von Alter und Geschlecht ist signifikant, was laut meiner Dozentin bedeuten würde, dass ich die beiden Variablen als Kovariate in meine Analyse aufnehme.

t = -3.1112, df = 187, p-value = 0.002156

Bei der Anova mit der Variable Geschlecht erhalte ich das gleiche Ergebnis.

Df Sum Sq Mean Sq F value Pr(>F)
Geschlecht 1 3 3.0022 9.679 0.00216 **
Residuals 187 58 0.3102
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Vielen Dank & liebe Grüße
Lisa
lisa45602
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Di 28. Nov 2023, 12:02
Danke gegeben: 6
Danke bekommen: 0 mal in 0 Post

Re: Korrelation kontinuierliche und kategoriale Variable

Beitragvon bele » Di 28. Nov 2023, 18:09

Hallo,

dass Du so genau das gleiche Ergebnis erhälst liegt halt daran, dass 3 von 192 sehr wenig ist.
Ich verstehe nicht, warum man hier nicht die ANOVA nehmen sollte, wenn es nachher doch alles in eine ANOVA eingespielt wird, aber ich muss das auch nicht verstehen.

Viel Erfolg, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5781
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

Re: Korrelation kontinuierliche und kategoriale Variable

Beitragvon lisa45602 » Fr 1. Dez 2023, 12:03

Hey,

ja ich denke, dass ich bestimmt auch begründen kann, warum ich die ANOVA verwendet habe. Vielen Dank!

Danke dir und liebe Grüße
Lisa
lisa45602
Beobachter
Beobachter
 
Beiträge: 13
Registriert: Di 28. Nov 2023, 12:02
Danke gegeben: 6
Danke bekommen: 0 mal in 0 Post


Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste