Seite 1 von 2

Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Do 29. Sep 2016, 15:26
von G21G
Hallo
Ich habe 2 xy Kurven (Konzentration vs. MFR), mit unterschiedlichen Werten sowohl für x als auch y. z.B.
Set1 = [2.68,4.32,6.92,8.38,9.51,9.54;10.3,18.6,40,58,49,50];
Set2 = [1.01,1.01,1.2,1.3,2.19,3.28,4.74,8.84,8.87,9.35;1.55,1.83,1.79,2.4,2.51,6.5,12.5,27.2,49,45,70]
Ich möchte nun sehen ob sich diese beiden Datensätze signifikant voneinander unterscheiden bzw. ob sie korrelieren. Beide können gut mittels einer Potenzregression beschrieben werden (R² > 0.95). Optisch unterscheiden sich diese beiden kaum.
Ist es zulässig bzw. eine Möglichkeit die fehlenden Datenpunkte zu interpolieren, um dann die Korrelationskoeffizienten berechnen zu können ?
Welche Methode würdet ihr vorschlagen ?
Danke
MfG Günter

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Do 29. Sep 2016, 16:02
von bele
G21G hat geschrieben:Ich möchte nun sehen ob sich diese beiden Datensätze signifikant voneinander unterscheiden bzw. ob sie korrelieren.

Sich unterscheiden und miteinander korrellieren sind zwei ganz verschiedene Fragen. Zunächst ist mir aber unklar, was Du unter einem Datensatz verstehst. Ist ein "Set" ein Datensatz oder sind die beiden durch Semikolon in einem Set getrennten Zahlenfolgen ein Datensatz?

Ist es zulässig bzw. eine Möglichkeit die fehlenden Datenpunkte zu interpolieren, um dann die Korrelationskoeffizienten berechnen zu können ?

Korrelationskoeffizienten berechnet man normalerweise mit den tatsächlich vorhandenen Daten, aber es kann sein, dass ich die Frage ganz falsch verstehe (siehe oben).

Welche Methode würdet ihr vorschlagen ?

Eine vernünftige Beschreibung des zugrundeliegenden Problems, der Natur der Daten und der zu beantwortenden Fragestellung wäre methodisch nicht verkehrt.

LG,
Bernhard

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Do 29. Sep 2016, 16:45
von G21G
Hallo

Es wurden 2 verschiedene Chargen desselben Produkts hergestellt (Datensatz 1 und 2). Während des Prozesses werden Proben entnommen, die Konzentration bestimmt (= X-Wert) und daraufhin eine Messung (MFI) durchgeführt (= Y-Wert) => wobei im Regelfall eine höhere Konzentration zu einem höheren MFI führt. Die Wertepaare von Datensatz 1 & 2 weisen unterschiedliche Konzentrationen (X-Werte) auf, soll heißen ich habe keine Messwerte (y) von Datensatz 2 für die Konzentrationen (x) von Datensatz 1 und visa versa. Wobei ich dazu sagen muss, dass die Anzahl des Messungen limitiert ist (max. 13 pro Charge). Nun ist die Frage unterscheiden sich diese beiden Chargen, basierend auf den vorhandenen Wertepaaren, signifikant.

Set ist ein Datensatz, das Semikolon trennt die x von den y Werten

MfG Günter

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Do 29. Sep 2016, 21:32
von bele
Kann man irgendwelche Annahmen zum Zusammenhang zwischen x und y treffen, z.B., dass sie auf einer Geraden liegen oder dass sie sich in einem Kreis um einen gemeinsamen Mittelpunkt verteilen oder irgendetwas anderes, womit man Deinen Begriff des Korrelierens etwas präziser fassen könnte?

LG,
Bernhard

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Fr 30. Sep 2016, 10:43
von G21G
Hallo Bernhard

Was man sicher sagen kann ist, dass eine höhere Konzentration zu einem höheren MFI Wert führt. Dieser Verlauf kann gut mit einer Potenzregression beschrieben werden (R² > 0.95), wobei natürlich nicht alle Punkte auf der Ausgleichskurve liegen.

Interessiert bin ich, ob es möglich ist eine Aussage zu treffen ob sich Charge 1 (Datensatz 1) merklich/signifikant von Charge 2 (Datensatz 2) unterscheidet.

MfG Günter

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Fr 30. Sep 2016, 13:36
von bele
Von der wievielten Potenz sprechen wir denn? Bei nur 13 Wertepaaren lassen sich halt nur begrenzt viele Koeffizienten bestimmen bzw mit genügend vielen Potenzen lassen sich wenige Punkte immer schön annähern.

Wenn ich das richtig verstehe, dann willst Du zeigen, dass diese 13 Punkte und jene 13 Punkte auf der gleichen Linie liegen, die einer quadratischen oder kubischen oder höherordrigen polynomen Funktino folgt?

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Mo 3. Okt 2016, 13:14
von G21G
Hallo

Von der wievielten Potenz sprechen wir denn? Bei nur 13 Wertepaaren lassen sich halt nur begrenzt viele Koeffizienten bestimmen bzw mit genügend vielen Potenzen lassen sich wenige Punkte immer schön annähern.


Potenz der Ausgleichskurve ist ~1.6-2.4

Wenn ich das richtig verstehe, dann willst Du zeigen, dass diese 13 Punkte und jene 13 Punkte auf der gleichen Linie liegen, die einer quadratischen oder kubischen oder höherordrigen polynomen Funktino folgt?


Genau, bzw abschätzen ob sie sich signifikant unterscheiden

Meine Daten sind:
Dataset 1:
x,y
2.67948723,10.3
4.32144165,18.6
6.91549492,40
8.38325500,49
9.50781250,50
9.54225159,58
10.3186760,80
10.3332672,85
10.3398771,87
10.3526955,92
10.4671631,93
10.8136120,93
10.8360834,96

Datset 2:
x,y
1.00513458,1.55
1.00921738,1.79
1.01075900,1.83
1.20497000,2.40
1.30093348,2.51
2.19338202,6.50
3.27699137,12.5
3.28192520,12.5
4.73765564,27.2
8.83782482,45
8.87116241,49
9.34879780,70
9.34949589,74

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Mi 12. Okt 2016, 08:30
von G21G
Hallo Bernhard

Ich habe von dir leider nichts mehr gehört, heißt das es ist nicht möglich ?

MfG Günter

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Mi 12. Okt 2016, 09:59
von bele
Hallo,

nein, das heißt nur, dass ich beruflich, privat und gesundheitlich wichtigeres zu tun hatte, als im Forum zu posten. Sorry, ich hatte das mit der Potenzfunktion irgendwie falsch verstanden.
Deine Potenzfunktion folgt irgendwie der Gleichung

Wenn Du davon auf beiden Seiten den natürlich Logarithmus nimmst, dann wird daraus

Das wiederum ist eine Geradengleichung. Du kannst also Deine x-Werte und die Logarithmen Deiner y-Werte in eine lineare Regression stecken und erhälst aus der Regression die Schätzwerte für und für . Darüber hinaus erhälst Du die Standardfehler für beide Parameter und kannst dann sagen, ob sich oder bei beiden Regressionen die Konfidenzintervalle für beide Parameter überlappen oder nicht.

LG,
Bernhard

Re: Korrelation von unterschiedlichen Datensätzen

BeitragVerfasst: Mi 12. Okt 2016, 10:21
von bele
In R könnte das so aussehen:
Code: Alles auswählen
ds1 <- data.frame(
  x = c(
    2.67948723,
    4.32144165,
    6.91549492,
    8.38325500,
    9.50781250,
    9.54225159,
    10.3186760,
    10.3332672,
    10.3398771,
    10.3526955,
    10.4671631,
    10.8136120,
    10.8360834
  ),
  y = c(10.3
        ,18.6
        ,40
        ,49
        ,50
        ,58
        ,80
        ,85
        ,87
        ,92
        ,93
        ,93
        ,96)
)

ds2 <- data.frame(
  x = c(
    1.00513458,
    1.00921738,
    1.01075900,
    1.20497000,
    1.30093348,
    2.19338202,
    3.27699137,
    3.28192520,
    4.73765564,
    8.83782482,
    8.87116241,
    9.34879780,
    9.34949589
  ),
  y = c(1.55
        ,1.79
        ,1.83
        ,2.40
        ,2.51
        ,6.50
        ,12.5
        ,12.5
        ,27.2
        ,45
        ,49
        ,70
        ,74)
)

model1 <- lm(log(y)~x, data = ds1)
model2 <- lm(log(y)~x, data = ds2)

summary(model1)
summary(model2)


mit folgenden Ergebnissen:
Code: Alles auswählen
> summary(model1)

Call:
lm(formula = log(y) ~ x, data = ds1)

Residuals:
     Min       1Q   Median       3Q      Max
-0.28330 -0.02442  0.02319  0.07821  0.16852

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  1.71978    0.12442   13.82 2.69e-08 ***
x            0.26037    0.01355   19.22 8.19e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1232 on 11 degrees of freedom
Multiple R-squared:  0.9711,   Adjusted R-squared:  0.9685
F-statistic: 369.4 on 1 and 11 DF,  p-value: 8.187e-10

> summary(model2)

Call:
lm(formula = log(y) ~ x, data = ds2)

Residuals:
    Min      1Q  Median      3Q     Max
-0.5416 -0.3461 -0.1794  0.4106  0.8114

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  0.57272    0.21123   2.711   0.0202 * 
x            0.40508    0.03874  10.458 4.72e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4748 on 11 degrees of freedom
Multiple R-squared:  0.9086,   Adjusted R-squared:  0.9003
F-statistic: 109.4 on 1 and 11 DF,  p-value: 4.719e-07

Der Schätzung für liegt im Dataset 1 also bei 1,720 plusminus 1,96 * 0,124 und im Dataset 2 bei 0,572 plusminus 1,96 * 0.211. Damit wäre dieser Faktor schon mal klar signifikant unterschiedlich in diesem Modell. Frag mich jetzt bitte nicht, wie man das in Excel nachkocht.

LG,
Bernhard