Korrelation von unterschiedlichen Datensätzen

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Korrelation von unterschiedlichen Datensätzen

Beitragvon G21G » Do 29. Sep 2016, 15:26

Hallo
Ich habe 2 xy Kurven (Konzentration vs. MFR), mit unterschiedlichen Werten sowohl für x als auch y. z.B.
Set1 = [2.68,4.32,6.92,8.38,9.51,9.54;10.3,18.6,40,58,49,50];
Set2 = [1.01,1.01,1.2,1.3,2.19,3.28,4.74,8.84,8.87,9.35;1.55,1.83,1.79,2.4,2.51,6.5,12.5,27.2,49,45,70]
Ich möchte nun sehen ob sich diese beiden Datensätze signifikant voneinander unterscheiden bzw. ob sie korrelieren. Beide können gut mittels einer Potenzregression beschrieben werden (R² > 0.95). Optisch unterscheiden sich diese beiden kaum.
Ist es zulässig bzw. eine Möglichkeit die fehlenden Datenpunkte zu interpolieren, um dann die Korrelationskoeffizienten berechnen zu können ?
Welche Methode würdet ihr vorschlagen ?
Danke
MfG Günter
G21G
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 29. Sep 2016, 14:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon bele » Do 29. Sep 2016, 16:02

G21G hat geschrieben:Ich möchte nun sehen ob sich diese beiden Datensätze signifikant voneinander unterscheiden bzw. ob sie korrelieren.

Sich unterscheiden und miteinander korrellieren sind zwei ganz verschiedene Fragen. Zunächst ist mir aber unklar, was Du unter einem Datensatz verstehst. Ist ein "Set" ein Datensatz oder sind die beiden durch Semikolon in einem Set getrennten Zahlenfolgen ein Datensatz?

Ist es zulässig bzw. eine Möglichkeit die fehlenden Datenpunkte zu interpolieren, um dann die Korrelationskoeffizienten berechnen zu können ?

Korrelationskoeffizienten berechnet man normalerweise mit den tatsächlich vorhandenen Daten, aber es kann sein, dass ich die Frage ganz falsch verstehe (siehe oben).

Welche Methode würdet ihr vorschlagen ?

Eine vernünftige Beschreibung des zugrundeliegenden Problems, der Natur der Daten und der zu beantwortenden Fragestellung wäre methodisch nicht verkehrt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon G21G » Do 29. Sep 2016, 16:45

Hallo

Es wurden 2 verschiedene Chargen desselben Produkts hergestellt (Datensatz 1 und 2). Während des Prozesses werden Proben entnommen, die Konzentration bestimmt (= X-Wert) und daraufhin eine Messung (MFI) durchgeführt (= Y-Wert) => wobei im Regelfall eine höhere Konzentration zu einem höheren MFI führt. Die Wertepaare von Datensatz 1 & 2 weisen unterschiedliche Konzentrationen (X-Werte) auf, soll heißen ich habe keine Messwerte (y) von Datensatz 2 für die Konzentrationen (x) von Datensatz 1 und visa versa. Wobei ich dazu sagen muss, dass die Anzahl des Messungen limitiert ist (max. 13 pro Charge). Nun ist die Frage unterscheiden sich diese beiden Chargen, basierend auf den vorhandenen Wertepaaren, signifikant.

Set ist ein Datensatz, das Semikolon trennt die x von den y Werten

MfG Günter
G21G
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 29. Sep 2016, 14:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon bele » Do 29. Sep 2016, 21:32

Kann man irgendwelche Annahmen zum Zusammenhang zwischen x und y treffen, z.B., dass sie auf einer Geraden liegen oder dass sie sich in einem Kreis um einen gemeinsamen Mittelpunkt verteilen oder irgendetwas anderes, womit man Deinen Begriff des Korrelierens etwas präziser fassen könnte?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon G21G » Fr 30. Sep 2016, 10:43

Hallo Bernhard

Was man sicher sagen kann ist, dass eine höhere Konzentration zu einem höheren MFI Wert führt. Dieser Verlauf kann gut mit einer Potenzregression beschrieben werden (R² > 0.95), wobei natürlich nicht alle Punkte auf der Ausgleichskurve liegen.

Interessiert bin ich, ob es möglich ist eine Aussage zu treffen ob sich Charge 1 (Datensatz 1) merklich/signifikant von Charge 2 (Datensatz 2) unterscheidet.

MfG Günter
G21G
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 29. Sep 2016, 14:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon bele » Fr 30. Sep 2016, 13:36

Von der wievielten Potenz sprechen wir denn? Bei nur 13 Wertepaaren lassen sich halt nur begrenzt viele Koeffizienten bestimmen bzw mit genügend vielen Potenzen lassen sich wenige Punkte immer schön annähern.

Wenn ich das richtig verstehe, dann willst Du zeigen, dass diese 13 Punkte und jene 13 Punkte auf der gleichen Linie liegen, die einer quadratischen oder kubischen oder höherordrigen polynomen Funktino folgt?
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon G21G » Mo 3. Okt 2016, 13:14

Hallo

Von der wievielten Potenz sprechen wir denn? Bei nur 13 Wertepaaren lassen sich halt nur begrenzt viele Koeffizienten bestimmen bzw mit genügend vielen Potenzen lassen sich wenige Punkte immer schön annähern.


Potenz der Ausgleichskurve ist ~1.6-2.4

Wenn ich das richtig verstehe, dann willst Du zeigen, dass diese 13 Punkte und jene 13 Punkte auf der gleichen Linie liegen, die einer quadratischen oder kubischen oder höherordrigen polynomen Funktino folgt?


Genau, bzw abschätzen ob sie sich signifikant unterscheiden

Meine Daten sind:
Dataset 1:
x,y
2.67948723,10.3
4.32144165,18.6
6.91549492,40
8.38325500,49
9.50781250,50
9.54225159,58
10.3186760,80
10.3332672,85
10.3398771,87
10.3526955,92
10.4671631,93
10.8136120,93
10.8360834,96

Datset 2:
x,y
1.00513458,1.55
1.00921738,1.79
1.01075900,1.83
1.20497000,2.40
1.30093348,2.51
2.19338202,6.50
3.27699137,12.5
3.28192520,12.5
4.73765564,27.2
8.83782482,45
8.87116241,49
9.34879780,70
9.34949589,74
G21G
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 29. Sep 2016, 14:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon G21G » Mi 12. Okt 2016, 08:30

Hallo Bernhard

Ich habe von dir leider nichts mehr gehört, heißt das es ist nicht möglich ?

MfG Günter
G21G
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 29. Sep 2016, 14:11
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon bele » Mi 12. Okt 2016, 09:59

Hallo,

nein, das heißt nur, dass ich beruflich, privat und gesundheitlich wichtigeres zu tun hatte, als im Forum zu posten. Sorry, ich hatte das mit der Potenzfunktion irgendwie falsch verstanden.
Deine Potenzfunktion folgt irgendwie der Gleichung

Wenn Du davon auf beiden Seiten den natürlich Logarithmus nimmst, dann wird daraus

Das wiederum ist eine Geradengleichung. Du kannst also Deine x-Werte und die Logarithmen Deiner y-Werte in eine lineare Regression stecken und erhälst aus der Regression die Schätzwerte für und für . Darüber hinaus erhälst Du die Standardfehler für beide Parameter und kannst dann sagen, ob sich oder bei beiden Regressionen die Konfidenzintervalle für beide Parameter überlappen oder nicht.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Korrelation von unterschiedlichen Datensätzen

Beitragvon bele » Mi 12. Okt 2016, 10:21

In R könnte das so aussehen:
Code: Alles auswählen
ds1 <- data.frame(
  x = c(
    2.67948723,
    4.32144165,
    6.91549492,
    8.38325500,
    9.50781250,
    9.54225159,
    10.3186760,
    10.3332672,
    10.3398771,
    10.3526955,
    10.4671631,
    10.8136120,
    10.8360834
  ),
  y = c(10.3
        ,18.6
        ,40
        ,49
        ,50
        ,58
        ,80
        ,85
        ,87
        ,92
        ,93
        ,93
        ,96)
)

ds2 <- data.frame(
  x = c(
    1.00513458,
    1.00921738,
    1.01075900,
    1.20497000,
    1.30093348,
    2.19338202,
    3.27699137,
    3.28192520,
    4.73765564,
    8.83782482,
    8.87116241,
    9.34879780,
    9.34949589
  ),
  y = c(1.55
        ,1.79
        ,1.83
        ,2.40
        ,2.51
        ,6.50
        ,12.5
        ,12.5
        ,27.2
        ,45
        ,49
        ,70
        ,74)
)

model1 <- lm(log(y)~x, data = ds1)
model2 <- lm(log(y)~x, data = ds2)

summary(model1)
summary(model2)


mit folgenden Ergebnissen:
Code: Alles auswählen
> summary(model1)

Call:
lm(formula = log(y) ~ x, data = ds1)

Residuals:
     Min       1Q   Median       3Q      Max
-0.28330 -0.02442  0.02319  0.07821  0.16852

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  1.71978    0.12442   13.82 2.69e-08 ***
x            0.26037    0.01355   19.22 8.19e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1232 on 11 degrees of freedom
Multiple R-squared:  0.9711,   Adjusted R-squared:  0.9685
F-statistic: 369.4 on 1 and 11 DF,  p-value: 8.187e-10

> summary(model2)

Call:
lm(formula = log(y) ~ x, data = ds2)

Residuals:
    Min      1Q  Median      3Q     Max
-0.5416 -0.3461 -0.1794  0.4106  0.8114

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  0.57272    0.21123   2.711   0.0202 * 
x            0.40508    0.03874  10.458 4.72e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4748 on 11 degrees of freedom
Multiple R-squared:  0.9086,   Adjusted R-squared:  0.9003
F-statistic: 109.4 on 1 and 11 DF,  p-value: 4.719e-07

Der Schätzung für liegt im Dataset 1 also bei 1,720 plusminus 1,96 * 0,124 und im Dataset 2 bei 0,572 plusminus 1,96 * 0.211. Damit wäre dieser Faktor schon mal klar signifikant unterschiedlich in diesem Modell. Frag mich jetzt bitte nicht, wie man das in Excel nachkocht.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Nächste

Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron